“機器人”和“AI”這兩種技術可能有個共性,就是都在過去這幾十年里,曾經歷過不同輪次的發(fā)展。而這一波“機器人”之所以大火,當然不單是因為宇樹機器人登上春晚舞臺,而是AI作為一種讓行業(yè)看到開發(fā)范式轉變的技術,可能有機會讓機器人也隨之起飛;再加上感知技術、仿真平臺的日益成熟,都為新時代的機器人發(fā)展提供了技術基礎。
傳統(tǒng)機器人實則已經在工業(yè)自動化、零售等領域應用,但和現(xiàn)在我們常說的“具身智能”“Physical AI”還是不同。那么到底有什么不同?
最近的Intel具身智能解決方案推介會上,嚴羽(英特爾中國邊緣計算事業(yè)部機器人產品高級研發(fā)工程師)就提到,相比于傳統(tǒng)機器人借助傳統(tǒng)算法做運動控制,具身智能“更多要面向非結構化環(huán)境”,還“需要與人有更多的交互”——這是需求層面的。
而在結合AI技術以后,熊蓉(浙江人形機器人創(chuàng)新中心首席科學家、浙江大學求是特聘教授)在推介會上說,具身智能可以“減少對于專家知識和經驗的依賴”;同時,“如果做到語言、視覺、行為的充分融合”,“還能降低對感知準確性的依賴”。
所以李巖(英特爾中國邊緣計算事業(yè)部行業(yè)解決方案高級總監(jiān))說具身智能是一塊全新的“市場蛋糕”。從商業(yè)邏輯來看,在行業(yè)市場已經應用了不少機器人的情況下,為什么我們還需要具身智能?
拋開“人類幸福生活”“勞動力短缺”之類的說辭,當機器人具備更大程度的通用性,在更多場景“取代原有專用機器人”,則有了更廣闊的市場范圍和場景。很多工作“傳統(tǒng)機器人也能做,但一個人干的活兒需要3-5個傳統(tǒng)機器人才能完成。現(xiàn)代生產、柔性制造變化還需要專家不斷鉆研和編程。這造成了工業(yè)等應用的成本陡增?!?/p>
這些都是具身智能具備市場前景的基礎。在此基礎上,我們要探討的就是具體該怎么做的問題了。即便現(xiàn)在絕大部分市場參與者探討的,都是機器人的某個子系統(tǒng)。要從高層抽象來理解問題,我們更應該看的是那些做機器人大腦的企業(yè)是怎么做的——因為當大腦確定,才談得上生態(tài)及周邊,和下屬的各部分子系統(tǒng)。
在具身智能“大腦”方向上,此前我們了解最多的就是NVIDIA的“三臺計算機”解決方案了,當然也包括部署到機器人本體的大腦Jetson。但實際上,在傳統(tǒng)行業(yè)機器人的運動控制領域,已經占據(jù)相當市場份額的恰恰是Intel的CPU;而且不要忘記現(xiàn)在Intel也有自己的GPU, NPU產品——至少從直覺來看,可能Intel在機器人領域還更有從全局把握的能力和條件。
所以不難理解,Intel在這次具身智能解決方案推介會上主打的大方向思路,就是大小腦融合。借此機會,我們來聊聊所謂的“大小腦融合”究竟是個什么樣的策略,并借此也了解一下在傳統(tǒng)機器人市場有一定基礎的Intel,進入到具身智能時代又有什么樣的打算和布局。這場推介會也讓我們看到了具身智能發(fā)展的另一面。
如文首所述,“具身智能”“大模型”這類新事物出現(xiàn)之前,就已經有機器人乃至人形機器人了。但傳統(tǒng)的機器人研究,是從感知到驅動執(zhí)行,切分成一系列問題,對每個問題做建模,然后尋求合適的數(shù)學方法求解。這種基于傳統(tǒng)算法、應用于工業(yè)自動化的機器人“我們稱之為第一階段”。馬小龍(英特爾中國區(qū)銷售與市場事業(yè)部高級技術銷售)在主題演講中說。
而“第二階段”就以LLM大語言模型的出現(xiàn)為標志,“用大語言模型(LLM)和視覺大模型(VLM)來增強具身智能的泛化能力。”“大語言模型可以直接實現(xiàn)機器人的交互、任務的編排;視覺大模型則提升機器人對環(huán)境的理解能力?!瘪R小龍說,“我們看到,去年已經量產、相對成熟的人形機器人都采用這樣的架構?!?/p>
進入到第三階段,“學術界、產業(yè)界開始投入端到端模型?!毕噍^于“第二階段的泛化只在語言和視覺層面,把操作、運動也加入進來,就出現(xiàn)了視覺動作大模型和視覺語言動作大模型(VLAM)”。
之所以叫“端到端模型”,是因為這一階段行業(yè)正嘗試從過去分階段或分層的方式解決問題,到現(xiàn)在傾向于“用一個模型來解決所有問題”。NVIDIA、谷歌等企業(yè)都在做“一體式架構”和VLAM的嘗試——雖然在遭遇挑戰(zhàn)后,又看到部分企業(yè)采用分層架構+聯(lián)合訓練的方式來解決問題。
三個階段的演進基本可以視作,開發(fā)范式越來越走向數(shù)據(jù)驅動。端到端大模型似乎是相當符合直覺的未來方向。但推介會上的所有專家都認為,這種方案存在諸多落地挑戰(zhàn),例如速度、精度都無法滿足實際應用的要求——過去一年有關VLAM端到端模型是否為機器人、汽車最終歸宿的探討還是相當多的。
可能很多讀者看到春晚機器人手腳并用地跳舞,有企業(yè)演示人形機器人疊衣服、分揀電池,加上NVIDIA的“三臺計算機”理論、基于模仿學習映射+強化學習邏輯如此之通順,各種大模型技術發(fā)展如此迅猛,就會認為機器人現(xiàn)在理應成熟,很快要走入尋常百姓家了。
但實際上,瞿好聰(英特爾中國邊緣計算事業(yè)部高級產品經理)在介紹Intel對機器人市場的調研時就提及現(xiàn)在的具身智能要上產線,“比如做測試插個dongle”或者“給平板貼膜撕膜”,都存在很大挑戰(zhàn)。Intel自己實踐模仿學習,也發(fā)現(xiàn)實際應用中的準確率很低。“我們和機器人廠商、終端客戶去聊,都發(fā)現(xiàn)技術和落地之間存在很大的鴻溝?!?/p>
熊蓉在談人形機器人目前遭遇的挑戰(zhàn)時,就特別提到“雖然現(xiàn)在的機器人能跑能跳,真正能作業(yè)的卻還很少”。比如特斯拉的機器人作業(yè)“很大程度依賴遠程遙控”,“波士頓動力展示的搬運能力,底層仍然是MPC+WBC實現(xiàn)感知與行為的結合,可靠性和魯棒性也存在問題”?!昂芏嗳诵螜C器人站著操作,甚至都站不穩(wěn)?!?/p>
她提到研究中,人形機器人真正用于作業(yè)時遭遇的幾大挑戰(zhàn),我們認為是有借鑒價值的——雖然人形機器人并不代表所有類型的具身智能。
(1)人形機器人運動學習偏復現(xiàn)/遙控,在有負載的情況下,作業(yè)臂的上肢大幅運動、負載作業(yè)、智能移動作業(yè)表現(xiàn)都待提升,尤其是作業(yè)精度要求;(2)對于VLAM這類端到端模型研究方向,更多局限在小范圍場景行為復現(xiàn),“動作類別少,缺少力觸信息融合、工具使用等”,在熊蓉看來,現(xiàn)在的研究更多關注了機器人的“智能”水平,卻鮮有針對工業(yè)作業(yè)“技能”水平提升的。
(3)缺數(shù)據(jù)?,F(xiàn)在常見的方式基于仿真平臺,例如通過遙操作,如VR眼鏡、手柄等方式讓機器人去學習。關注電子工程專輯過往機器人報道文章的讀者應該知道,像Omnivision這樣的虛擬平臺已經具備相當高的仿真水平。
但其中仍然存在相較于真實世界的不同,比如熊蓉特別提到的“力觸”(如機械臂在深筐抓取時拿起某個物體用多大的力——通常遙操作通常沒有力反饋)。即便強如Isaac SIM,也需要解決我們常說的Sim2Real的問題。
和很多人想象的不同,谷歌Gemini機器人經過了長達12個月的遙操作數(shù)據(jù)收集,涉及設備、人員、標注的成本都很高,且異構遷移都也還存在挑戰(zhàn)。
(4)前文已經提到的泛化與通用,真正在作業(yè)過程中還需要高精度、高可靠和高效率?!爸悄芗夹g引入,現(xiàn)在面臨的問題是可泛化、自適應性能力在提升,但精度、效率在下降。”(5)視-力-觸傳感器,和端側計算控制器和操作執(zhí)行器需要提升。
從總體上來看,或許要像許多人預想的那樣:人形機器人進入尋常人家做家政這類場景,可能離我們還有段距離。確定性、安全性、成本都是問題。
上面這些挑戰(zhàn)是讓我們真正看到,即便在AI高速發(fā)展、AI與機器人結合的理論和邏輯相對充分的情況下,落到實處仍舊存在的問題的。雖說機器人領域內不同市場參與者看到的挑戰(zhàn)是有差別、或不同角度的,但必然離不開感知、計算、控制、執(zhí)行。所有的問題和挑戰(zhàn),也需要行業(yè)各環(huán)節(jié)參與者共同努力,才有機會解決。
這大概也是不少具身智能機器人仍停留在科研和學習應用的原因,所以我們也才說具身智能目前處在發(fā)展早期。Intel作為CPU、GPU、NPU等處理器芯片供應商,更關注的自然在于計算與控制?;乜瘩R小龍總結機器人發(fā)展的不同階段這張PPT,不同板塊采用不同的顏色,也是為了很大程度區(qū)分傳統(tǒng)意義上,這些負載都跑在哪些處理器上。
深藍色表示通常由CPU負責,紫色則表示需要用GPU加速。從Intel的三階段劃分解讀,機器人正從以藍色板塊CPU計算為主,發(fā)展到當前CPU+GPU并重的階段,甚至也可能需要淺藍色“云腦”的輔助。而Intel所謂的“大腦”“小腦”也就很好理解了,如果硬要從處理器類型角度切分,可以相對狹義地把小腦理解為CPU或運動控制器,大腦理解為包含GPU與其他加速器等高并行計算能力的處理器。
小腦的工作在于運行底層操作系統(tǒng)、實時運動控制,基本要求是反應快、實時性強;而大腦的工作包括感知世界,接收各種傳感器的數(shù)據(jù),并基于算法做處理和后續(xù)的運動規(guī)劃決策——可能是傳統(tǒng)計算機視覺算法,也可能是AI大模型。
從嚴羽的主題演講來看,說CPU是小腦、iGPU/NPU是大腦,實則是不準確的;比如他列舉的視覺伺服應用上,酷睿Ultra的CPU部分,僅有1個E-core負責實時運動控制,其他CPU核心也和iGPU一起,都通過OpenVINO加速;當代CPU擴展指令也能做運動規(guī)劃、AI推理加速等工作;
馬小龍說傳統(tǒng)的大小腦方案,小腦部分就是Intel的酷睿和靈動(Atom)處理器——市面上常見酷睿12、13代移動處理器;而現(xiàn)有解決方案中的大腦,常見NVIDIA Jetson Orin——前不久我們還上手體驗過Jetson Orin Nano。大腦和小腦則藉由網(wǎng)絡通信。這在Intel看來,“不是理想方案”,而是“無奈之舉”。
實際上熊蓉談到的一些挑戰(zhàn)中,如精度、效率,以及端側計算控制器待提升等問題,可能部分就是由大小腦分開的現(xiàn)狀導致的。因為“大小腦雙系統(tǒng)方案”帶來的問題包括更高的硬件成本、功耗和尺寸、延遲、研發(fā)成本;在更具體的問題上,比如熊蓉還提到大小腦分開“難做傳感器融合”,尤其當傳感數(shù)據(jù)量很大時。
當大小腦通信要跨芯片、跨系統(tǒng),的確會帶來諸多負面影響——推介會現(xiàn)場討論最多的是延遲和帶寬問題:尤其實時性不理想時,都可能導致低精度、摔倒之類的問題發(fā)生。
這其實是個很符合直覺的思路:舉例來說,“不管機器人是基于視覺的強化學習方案,還是基于模仿學習或大模型方案;視覺和運動控制都需要緊密銜接,視覺和運動控制需要低延遲的數(shù)據(jù)交互”——嚴羽談道,“所以未來需要融合的方案?!?/p>
不過這里我們想特別提及的,是嚴羽在采訪環(huán)節(jié)提到的,開發(fā)者面向大小腦分離的雙系統(tǒng)時,需要“維護兩套不同的代碼,控制代碼可能跑在Arm CPU上,也可以跑在x86 CPU上”——我們知道Jetson Orin作為SoC,里面帶性能較弱的Arm CPU;加上“AI算法又要跑在GPU或其他模塊”,這才是開發(fā)成本提升的關鍵。
所以Intel倡導的“大小腦融合”,就是全套由Intel提供的一體化計算方案,或者說加強了AI算力的酷睿Ultra處理器——其上既有CPU,也有GPU, NPU等計算單元,以“單系統(tǒng)”達成大小腦的“融合”。開發(fā)者若需要更高的AI算力,也能借助Intel Arc獨顯做算力擴展——從開發(fā)生態(tài)角度來看,相比獨立的Jetson Orin是也更為統(tǒng)一的。
這些對開發(fā)者而言,的確是需要關注的核心問題。不過從商業(yè)邏輯角度看,透過現(xiàn)象看本質:我們認為,Intel推的“大小腦融合”理念,可能體現(xiàn)了Intel當下發(fā)展策略的兩個關鍵(1)Intel宣傳了很久的XPU策略:酷睿Ultra在PC和邊緣市場,就在主打CPU+GPU+NPU組合,且強調AI算力;
?。?)Intel要發(fā)展自家的AI生態(tài),包括oneAPI, OpenVINO, IPEX-LLM都是其中的核心組成部分。而Jetson Orin是CUDA生態(tài)內的“大腦”,這顯然不會是Intel期望看到的——這是Intel的視角。從開發(fā)者的角度來看,如果選擇了Intel的小腦,那么同樣選擇Intel的大腦,就可以在統(tǒng)一的軟件平臺上去開發(fā),從而降低開發(fā)和部署成本。
如果你對Intel的AI PC、邊緣、汽車生態(tài)發(fā)展思路有了解,自然就能立刻領會,Intel面向機器人所推的大小腦融合方案具體是什么樣了。包括Intel在推介會上提的,面向機器人“構建開放平臺”、與其他軟硬件、ISV合作伙伴合作的思路,都和Intel現(xiàn)如今的其他業(yè)務發(fā)展方向如出一轍——有興趣的讀者可以去看看去年我們談過的Intel的企業(yè)AI戰(zhàn)略。
Intel針對機器人平臺所推芯片主要是酷睿Ultra,具體為Arrow Lake-H——對PC處理器熟悉的讀者應當對Arrow Lake-H不會陌生,當它面向邊緣和機器人時整體思路也類似:除了新架構的CPU之外,iGPU基于Xe-LPG+架構,INT8算力77 TOPS;NPU 3則在2W功耗下就有13 TOPS算力;XPU的AI總算力96 TOPS。
對這顆芯片配置詳情感興趣的讀者,可以去閱讀今年CES期間我們撰寫Arrow Lake的介紹文章;至于涉及實時控制的相關數(shù)據(jù)(如CPU提供20μs的實時抖動)可參見Intel的官方文檔,本文不再贅述。
如果尋求算力的進一步擴展,則在同生態(tài)下還可以搭配Intel Arc B系列獨顯——去年末電子工程專輯也上手了Intel面向PC平臺推的Arc B580顯卡,剖析了二代Battlemage和Xe2架構。面向機器人時,Intel主推的是Arc B570,AI理論峰值算力約在203 TOPS水平線上。
搭載Arrow Lake-H的具身智能參考方案如上圖所示,除了Arrow Lake-H芯片外,這塊板子有個MxM插槽,用于擴展Arc獨顯;配套獨立攝像頭轉接板,支持MIPI/GMSL攝像頭;IO載板擴展各類接口;
軟件與AI部分:提供包括BSP、算法模型、加速庫和各類參考代碼;針對實時運動控制,也有實時調優(yōu)的BKC(Best-known-Configuration)、RT Linux內核、EtherCAT IgH主站協(xié)議棧示例;面向CPU提供傳統(tǒng)視覺和運動規(guī)劃的優(yōu)化;面向iGPU和NPU,則加速基于深度學習、大模型的感知和操作等。
軟件和開發(fā)生態(tài)仍然是格外值得一提的,Intel的OpenVINO、IPEX-LLM這些做AI推理部署和性能優(yōu)化的工具、oneAPI統(tǒng)一框架,應當都不需要再多提了。當特別面向具身智能時,軟件全棧結構和對應的支持情況如下圖所示:
ROS再往上層仍然基于顏色標注了不同板塊對不同處理器的需求——雖然看起來在具身智能的這套結構中,Arrow Lake-H的NPU利用率還是低了點兒。Intel劃定,機器人跑LVM, VLA這類大模型時,可能就需要搭配Arc獨顯算力了。至于對AI算力達到上千TOPS的需求時,則Intel認為可配合外部云腦或邊緣側大腦...
其實這張圖也能看出大小腦融合、XPU或者統(tǒng)一架構的價值:起碼理論上,這套方案是更加優(yōu)雅的。不知道幾年前Intel在對外宣傳XPU策略時,有沒有想過它在具身智能上的巨大價值。畢竟當機器人與大模型掛鉤,乃至未來可能真正全面利用端到端大模型,芯片企業(yè)間拼的還是生態(tài)。
至于大方向上,這代芯片及解決方案具體怎么選、怎么替代以往的傳統(tǒng)方案,下面這張PPT是相對清晰的:
似乎在Intel的規(guī)劃中,面向具身智能的這一代酷睿Ultra處理器也部分取代了更早的、單純做運動控制的靈動/酷睿處理器——進化出具身智能、具備操作泛化能力及交互能力的工業(yè)機器人,可以用酷睿Ultra的XPU算力或“大小腦融合”來解決問題;至于現(xiàn)在在用大小腦分開方案、需要更強AI算力的(酷睿 + Jetson),則可考慮在酷睿Ultra處理器的基礎上,加入Arc獨顯。
受限于篇幅,推介會上談到的更多實踐、開發(fā)相關的內容,本文不做展開。這部分最后給出兩個更具體的例子——基于模仿學習的雙臂操作和視覺SLAM,作為思路開拓之用,供參考:
“無論是把傳統(tǒng)運控小腦升級為AI運控小腦,傳統(tǒng)機器人的智能化改造,還是人形機器人的大小腦融合需求,都可以用酷睿Ultra來實現(xiàn)?!瘪R小龍在總結中說。李巖則特別斬釘截鐵地表示,“從多系統(tǒng)到單系統(tǒng)的整合,是未來人形機器人發(fā)展的必然趨勢。”
當然大小腦融合思路嘗試解決的,也只是具身智能發(fā)展過程中的一小撮問題。參與推介會討論的所有專家普遍贊同,具身智能仍處在發(fā)展早期,熊蓉甚至特別提到:人形機器人、具身智能、行為大模型、空間智能——這些所有與機器人相關的熱門技術都處在起步階段,“我們正經歷快速發(fā)展期,現(xiàn)在面臨的是落地的挑戰(zhàn)?!?/p>
比較有趣的是,推介會現(xiàn)場信步科技基于Arrow Lake-H和Intel的具身智能方案發(fā)布了HB03具身智能開發(fā)平臺,葉志輝(信步科技副總經理)提到HB03選擇了非標準連接器,“因為目前尚無適用的標準”,“由于具身智能是較新的形態(tài),不像工業(yè)控制那樣有著成熟的應用場景,其形態(tài)也尚未統(tǒng)一。”
熊蓉也在談到相關具身智能的標準話題時說,即便針對人形機器人發(fā)起團體標準的機構很多,國標也有提案,但主要集中在技術要求方面,“我認為這些都尚未觸及真正的核心問題”,包括安全標準。所以具身智能“距離落地,還需要經歷技術快速發(fā)展期”;“落地涉及諸多因素,因為具身智能系統(tǒng)本身非常復雜”,不僅需要標準,“還需要生態(tài)系統(tǒng)”,“也需要資本耐心投入”。
在我們看來,具身智能發(fā)展的不確定性,體現(xiàn)在即便是當下參與其中的業(yè)內人士,也并不確定AI技術最終將以何種形式融入到機器人這個龐大系統(tǒng)中。前文提到的“三個階段”也并不是后一個階段就替代了前一個階段的關系——在這樣的新興行業(yè)里,通常技術和市場總是反復碰壁,并在曲折中前行。
不過從文首提及具身智能可以發(fā)展起來的商業(yè)賺錢邏輯來看,具身智能、機器人的未來前景大概又仍是值得肯定的。瞿好聰列舉研究機構的數(shù)據(jù),雖然2024年人形機器人在中國的銷量約為2400臺,對2030年30萬臺的銷量預期也下調到了16.2萬臺(數(shù)據(jù)來源:高工機器人產業(yè)研究所);
但需要看到2024年新增了29.4萬臺手臂機器人,2023年中國工業(yè)機器人保有量180萬臺(數(shù)據(jù)來源:MIR);此外2024年AGV/AMR的銷量約在13.9萬臺(數(shù)據(jù)來源:CMR)——其中的不少工業(yè)機器人廠商都在探索令傳統(tǒng)機器人實現(xiàn)具身智能化的可能性,則在技術未來走向成熟的前提下,智能化升級的空間是巨大的。自工業(yè)走向服務器,再走向消費市場,并全面起量,可能是具身智能發(fā)展的未來路徑。
而且從技術層面我們也要看到業(yè)界的努力,比如熊蓉所在的浙江人形機器人創(chuàng)新中心就在前述的諸多技術挑戰(zhàn)中做出了不少努力,比如;場景可泛化的Real2Sim2Real訓練通道、多行為聯(lián)合學習的混雜場景/長序列行為規(guī)劃等等…具身智能領域和AI技術一樣,或許每周都有突破性技術產出。
最后談談在我們看來,Intel于機器人市場的機會。其一是Intel在傳統(tǒng)機器人的運動控制領域有長期積累——這對Intel發(fā)展機器人生態(tài)有著相當大的價值;其二則在于Intel在其他領域建立起的AI生態(tài)及全棧技術,也可以為邊緣和機器人技術所用;
另外,李巖還談到,Intel在具身智能領域“擁有健康、龐大的ODM產業(yè)群和硬件產業(yè)群”;也在周邊生態(tài)上“與MCU、傳感器等眾多廠商”一起合作,“確保周邊部件的完整性”;加上“軟件和服務”層面,Intel的開放與合作思路;以及Intel“在中國本土擁有強大團隊”,在全球絕大部分工業(yè)機器人率先在中國落地的情況下,這些也都是巨大的資源優(yōu)勢。
只不過對具身智能市場虎視眈眈的參與者不少:如NVIDIA就是Intel的最大競爭者——尤以其在AI技術上的積累為優(yōu)勢。誠然如所有專家說的那樣,在標準都沒有形成、技術路徑也沒有完全摸索到位的情況下,未來的變數(shù)還有很多;提前布局并做好技術儲備仍然是Intel這類大企業(yè)的常規(guī)思路——大小腦融合就是個很好的例子。