首頁LBank 新聞中心
阿里巴巴正在打造 Qwen-Robot:機器人經濟的作業系統
alibaba-qwen-robot-operating-system-robot-economy
阿里巴巴正在打造 Qwen-Robot:機器人經濟的作業系統
這家中國公司正加倍押注於其「具身人工智慧」的賭注。
2026-06-16 來源:decrypt.co

簡報

  • 阿里巴巴推出Qwen-機器人套件,一組三個AI模型,旨在透過統一的軟體堆疊處理機器人導航、操作和基於物理的世界模擬。
  • 該公司表示,其模型在多個機器人基準測試中名列前茅,使用了數百萬個訓練樣本和數萬小時的開源機器人數據。
  • 機器人實際部署仍需數年時間。

阿里巴巴的Qwen團隊週二發布了Qwen-機器人套件:三個基礎模型,共同構成了他們所謂的「具身智能的完整堆疊」。Qwen-RobotNav處理移動性。Qwen-RobotManip處理操作。Qwen-RobotWorld模擬使兩者皆可能實現的物理現象。每個模型獨立運作。它們共同為機器人領域帶來了類似Android的時刻——一個操作系統,而非硬體。

📣 Introducing the Qwen-Robot Suite — Qwen-RobotNav, Qwen-RobotManip, Qwen-RobotWorld, three foundation models, a full stack for embodied intelligence.

🧭 Qwen-RobotNav — the gateway to mobility.
• Unifies 5 navigation tasks in one model: instruction following, point-goal,… pic.twitter.com/noumjTtTeS

— Qwen (@Alibaba_Qwen) June 16, 2026

阿里巴巴目前是中國唯一一家橫跨晶片、雲端、模型、服務平台和應用程式的公司。對於這家公司而言,機器人學是這項賭注最實體的表達,這就是所謂的具身AI。

AI代理目前依賴大型語言模型(LLM)來驅動其決策。機器人通常透過機器學習模型運作,儘管這些模型很先進,但卻缺乏生成式AI的適應性。實體代理面臨著不同且更困難的故障模式:物理學,而非提示。

針對這些使用案例,阿里巴巴推出了這個具有不同組件的新AI套件:

Qwen-RobotNav 統一了五項導航任務——指令遵循、點目標導航、物體搜索、目標追蹤和自動駕駛——每一項都要求不同的視覺記憶策略。大多數模型都是硬編碼一種策略。Qwen-RobotNav 揭示了一個參數化介面:令牌預算、時間衰減、每個攝影機的權重,規劃器可以在情節中期重新配置這些參數。

該模型透過所有參數的隨機化訓練了1,560萬個樣本,在VLN-CE RxR(真實世界環境中視覺與語言導航的基準測試)上取得了76.5%的成功率,並在EVT-Bench(評估代理程式持續追蹤移動目標能力的基準測試)上實現了90%的追蹤率。

Qwen-RobotManip 解決了機器人操作領域最大的挑戰之一:不同機器人以根本不同的方式表示動作。Franka 機械臂(一種具有七個運動軸的機器人)透過關節角度運作,而 ALOHA 機器人(一種廣泛用於機器人研究的低成本雙手機器人平台)則透過其夾持器(末端執行器姿態)的位置和方向來表示動作。人形機器人則增加了一層複雜性,使用全身座標。

為了彌合這些不相容的動作空間,阿里巴巴綜合了約38,100小時的訓練數據,這些數據來自開源機器人數據集和人類影片——而非依賴專有數據採集。該模型在RoboChallenge Table30-v1上排名第一,超越了先前的方法20%。

Qwen-RobotWorld 是最具野心的:一個以語言為條件的影片世界模型,將自然語言視為一個通用的動作介面。「拿起紅杯子並把水倒在花上」這句話,無論執行者是夾持器、自動駕駛車輛還是移動導航代理,都能運作。

「具身世界知識」語料庫涵蓋860萬個視訊-文本對(2億幀),涉及操作(590萬個樣本,1,300多種技能,20多種形態)、自動駕駛(Waymo、NVIDIA PhysicalAI-AD、Bench2Drive)、室內導航(VLNVerse),以及橫跨14種機械臂的人機轉換。

它在EWMBench和DreamGen Bench(兩個評估世界模型是否能預測和生成真實物理環境的基準測試)上排名第一。它還在WorldModelBench和PBench上擊敗所有開源模型,並在物理定律遵守方面獲得滿分:牛頓定律、質量守恆、流體力學、重力。

機器人界的ChatGPT?

儘管西方實驗室(Google DeepMind、Nvidia、Figure、Physical Intelligence)追求相似的目標,但大多數都專注於導航或操作,而非統一、可組合的套件。阿里巴巴從晶片到應用程式的垂直整合意味著他們掌控著整個堆疊。開源基礎使其與依賴私有機器人數據的競爭對手區分開來。

這裡有一些值得澄清的誤解:這些並非機器人本身,而是軟體模型——是「大腦」,而非「身體」。它們運行在 AgileX、Franka、Universal Robots、Unitree 等公司的硬體上。

此外,儘管這些是機器人的生成式AI模型,但它們並不像你典型的ChatGPT那樣是大型語言模型(LLM)。語言模型預測語素(tokens)。這些模型必須理解物理學、空間關係以及物理動作的後果。語言模型會告訴你,如果玻璃掉落會碎裂。Qwen-RobotWorld 則預測它如何碎裂——碎裂模式、流體動力學、二次碰撞。Qwen-RobotManip 則計劃一個能完全防止掉落的抓取方式。

暫時別指望很快就能擁有自己的家用機器人。機器人將水果放入籃子的受控演示與機器人在您家中可靠工作的現實之間存在巨大鴻溝。RoboCasa365、LIBERO-Plus、RoboTwin-Clean2Rand——這些都是模擬基準。實際部署會引入感測器雜訊、執行器漂移以及歷史上所有機器人研究都曾面臨的各種罕見情況(edge cases),阿里巴巴也意識到這一點。

不過,這些技術成就確實存在。RobotManip 的「對齊優先」方法解決了跨具身訓練中一個真正的瓶頸。RobotNav 的參數化觀察介面是解決情境策略問題的巧妙方案。RobotWorld 將語言作為通用動作介面的方法,是跨領域世界建模的正確抽象。

阿里巴巴尚未公開定價、時間表,或除試點計畫外哪些客戶能獲得使用權限。