從去年下半年到現(xiàn)在,具身智能的熱度一直不減。眾多企業(yè)紛紛入局具身智能賽道,同時,今年具身智能概念也首次被寫入政府工作報告,這標志著這一技術已成為科技競爭的“關鍵領域”,也是未來大國之間人工智能博弈的焦點。在頂層政策的助推和企業(yè)們的積極布局下,中國具身智能產(chǎn)業(yè)正在呈現(xiàn)蓬勃發(fā)展之勢。
根據(jù)頭豹研究院的數(shù)據(jù),2023 年,中國具身智能市場規(guī)模達 1572.7 億元。隨著大模型端的技術突破,具身智能市場規(guī)模預計將以 16.5% 的復合年增長率增長至 2027 年的 2259 億元。
長期以來,應用落地的痛點一直困擾著機器人產(chǎn)業(yè)鏈,而現(xiàn)在,在終端側AI技術與硬件加速融合發(fā)展的驅動下,具身智能概念讓整個產(chǎn)業(yè)正在超出預期地快速發(fā)展。智能機器人作為最通用的具身智能終端形態(tài),在模型技術、多模態(tài)交互感知技術等一系列前沿科技的加持下,正在推動AI向能夠理解、推理并與物理世界互動的智能發(fā)展。英偉達黃仁勛曾多次表示,AI技術終局在物理AI,AI時代下一個浪潮是“具身智能”時代。
在這樣的大背景下,不久前由中國人工智能學會(CAAI)主辦第二屆中國具身智能大會(CEAI 2025)在北京舉辦。本屆大會發(fā)布了“具身智能十五大重點方向”,為國內(nèi)蓬勃發(fā)展中的具身智能賽道指明了后續(xù)發(fā)展的重要細分方向。

“具身智能十五大重點方向”是國內(nèi)首次系統(tǒng)性地梳理具身智能技術的發(fā)展路線圖,這十五個重點方向分別為:多模態(tài)具身感知、具身自主學習、具身大模型、具身世界模型構建、具身操作、具身導航與路徑規(guī)劃、具身人機協(xié)同、群體具身智能、具身知識推理、具身智能仿真平臺、具身智能仿真到真實環(huán)境的遷移與泛化、具身智能安全、具身對話與交互、具身強化學習與自適應控制以及具身意識與情感。
這里將其分為五大類,其中,感知與交互是智能化基礎,決策與控制是行動的核心,協(xié)作與系統(tǒng)推動規(guī)?;瘧?,基礎技術支撐加速研發(fā)進程,安全與倫理保障可持續(xù)性。需要說明的是具身機器人是多學科多技術交叉的領域,很多技術方向存在重疊,這里的分類只按照技術側重稍做區(qū)分。
在今天這篇文章中,我們一起按上述分類梳理這十五大重點方向,看看如何在具身智能時代抓住這些前沿底層技術發(fā)展脈絡。
感知與交互是智能化基礎,這一方向包括:多模態(tài)具身感知、具身對話與交互和具身知識推理。
作為集前沿科學技術于一身的產(chǎn)品,具身機器人的感知層、決策層、執(zhí)行層等等每一類技術框架里都有著大量可智能化的空間。多模態(tài)具身感知是傳統(tǒng)機器人向具身機器人升級的重要一環(huán),是具身智能機器人的基礎能力。具身智能機器人需要一整套完整的多模態(tài)具身感知系統(tǒng),通過多維度的感知數(shù)據(jù)收集,帶動運動控制的范式變化。
除了IMU、編碼器等內(nèi)部本體感知,多模態(tài)感知強調(diào)機器人能盡可能實現(xiàn)擬人的五感。目前除了嗅覺感知方向進展稍慢,視、觸、聽、語言感知等方向均有了明顯的智能化提升。AI+3D視覺已經(jīng)發(fā)展了很多年,是將AI與傳感結合得較為成熟的賽道。以往更多的是在實時收集真實數(shù)據(jù)后不斷在云端優(yōu)化視覺算法。端側AI的興起,開始直接在端側進行數(shù)據(jù)處理,降低了可能因傳輸數(shù)據(jù)造成的延遲與可靠性問題。
觸覺方向上,國內(nèi)有帕西尼感知、他山科技、漢威科技等廠商在向多模態(tài)觸覺感知發(fā)力。如帕西尼主研發(fā)的ITPU多維觸覺傳感技術,不局限于傳統(tǒng)觸覺傳感器的單一感知,實現(xiàn)了多維陣列力感知及材質(zhì)、溫度、紋理等多模態(tài)物理屬性感知。
模型技術的提升在自然語言處理NLP領域上的優(yōu)勢也被機器人充分應用起來。借助端側或云端的模型進行自然語言識別來做語音交互、語音喚醒、聊天問答等功能已經(jīng)開始向機器人應用滲透。移遠的機器人端側大模型解決方案就是很好的例子,服務機器人可實現(xiàn)1s以內(nèi)的語義識別,解碼速率超過15 tokens/s。從KWS語音喚醒到VAD人聲檢測,再到ASR語音識別,最后通過TTS語音播報,移遠大模型解決方案在全語音鏈路上實現(xiàn)了無縫銜接與高效運行。
在多模態(tài)感知與交互功能的支持下服務機器人得以準確理解用戶意圖,并以清晰自然的語音進行反饋,在交互體驗和智能服務上遠勝于傳統(tǒng)的服務機器人。移遠通信在近期受訪時也表示后續(xù)會基于控制器,為機器人集成更多外圍感知器件,用多維的感知來不斷賦予機器人更類人的感知與交互能力。
交互的前提是充分的感知,借助實時、精準、多模態(tài)的感知技術,機器人才能拓展更多自如的AI交互功能。
具身對話與交互與自然語言處理NLP密切相關,結合語義理解與物理反饋,在大模型的支持下進行沉浸式交互。隨著該方向的持續(xù)推動,具身對話與交互應該更鼓勵通過持續(xù)的交互,自然形成雙向、多模態(tài)的交流方式,即人類和機器人可以共同塑造交流氛圍,并不斷改進具身機器人非結構化的交流能力。
非結構化交流能力是具身對話交互的愿景,現(xiàn)階段完成更自然更擬人的交互是亟需的。目前不少廠商針對智能陪伴機器人的核心需求在這方面的能力升級,如廣和通最近發(fā)布的星云系列,就通過外接攝像頭、麥克風等傳感器,星云解決方案通過多模態(tài)感知可實時解析用戶動作、表情與語音意圖,并通過端側7B模型支持個性化對話生成與情感識別,實現(xiàn)更自然的“擬人化”情感交互。

在多模態(tài)感知到多模態(tài)交互的過程中,涉及到具身知識推理,即讓機器人能夠結合先驗知識與實時感知數(shù)據(jù),利用知識庫中的結構化知識(如物理規(guī)律、操作流程、語義關系等),提升對復雜任務的邏輯推理能力。其核心在于將抽象知識(如常識、領域規(guī)則)與具身多模態(tài)感知(如視覺、觸覺)深度融合,以支持動態(tài)環(huán)境下的任務規(guī)劃與交互執(zhí)行。
決策與控制方向上包括:具身自主學習、具身強化學習與自適應控制、具身導航與路徑規(guī)劃、具身操作;協(xié)作與系統(tǒng)方向上包括:具身人機協(xié)同、群體具身智能。
具身導航路徑規(guī)劃以及具身操作是機器人執(zhí)行側的下一個發(fā)展階段。自主導航與路徑規(guī)劃經(jīng)過這些年的發(fā)展已經(jīng)成熟了很多。特別是SLAM技術的成熟完善讓機器人在沒有環(huán)境先驗信息的情況下實現(xiàn)了未知地圖內(nèi)的自主導航與規(guī)劃,讓很多商用機器人得以落地應用,如巡檢機器人、送餐機器人。值得注意的是,具身導航時代,3D SLAM也在快速崛起。
具身智能設備的迅速普及將快速推動以SLAM為代表的各類導航傳感器的融合,在多傳感器信息融合的基礎上,通過智能模型優(yōu)化路徑規(guī)劃,讓機器人導航向更自主更靈活的具身導航方向發(fā)展。為了實現(xiàn)性能更好的導航效果,我們也看到上游的芯片廠商會自研導航規(guī)劃算法將算法在芯片層面硬件化,如一微半導體、芯明智能;傳感器廠商也有不少將導航算法與傳感器件打包成模塊提供給下游本體廠商,如鐳神智能、AMS OSRAM、速騰聚創(chuàng)。
機器人末端執(zhí)行器的具身操作其實無需贅述,重點在于具身智能體如何基于多維度多模態(tài)感知信息生成行動策略并實現(xiàn)精準執(zhí)行。各類精密的末端操作在今年亮相的機器人中已經(jīng)有了很多展示,后續(xù)如何拓展具身機器人多樣化工作能力,持續(xù)增強基礎動作模型能力,從而實現(xiàn)更廣泛的場景應用是落地關鍵點。
機器人具身自主學習、具身強化學習與自適應控制是底層技術的長期積累,具身自主學習通過試錯與環(huán)境反饋優(yōu)化策略,根據(jù)反饋信息來調(diào)整自己的行為。具身自主學習方法在機器人多個模塊都有廣泛的應用,例如在機器人導航中,機器人可以通過感知周圍的環(huán)境和障礙物,學習到如何避開障礙物并找到最佳路徑;在物體識別和抓取任務中,機器人可以通過多模態(tài)模型感知物體的形狀、質(zhì)地等特征,并不斷學習到如何正確地抓取物體。在不斷的嘗試和錯誤中,機器人自主學習到如何有效地與環(huán)境進行交互,并實現(xiàn)特定的任務。強化學習與自適應控制更強調(diào)突破傳統(tǒng)程序化指令限制,適應動態(tài)環(huán)境變化,如柔性機器末端的實時調(diào)整。在具身設備落地階段,適應動態(tài)環(huán)境變化的自適應控制將發(fā)揮關鍵作用,確保機器人在復雜場景中靈活應對各種變化。
具身人機協(xié)同、群體具身智能將單個具身智能體擴展到多智能體協(xié)同以及人機協(xié)同作業(yè),通過群體智能算法實現(xiàn)高效協(xié)作,聚焦多機協(xié)同的復雜系統(tǒng)設計,強調(diào)交互性與規(guī)模化應用。智源研究院在大會上發(fā)布首個跨本體具身大小腦協(xié)作框架RoboOS與開源具身大腦RoboBrain就強調(diào)可實現(xiàn)跨場景多任務輕量化快速部署與跨本體協(xié)作,推動單機智能邁向群體智能。
具身智能技術的持續(xù)演進,不僅提升了機器人的個體能力,更在多智能體協(xié)同中展現(xiàn)出強大潛力。隨著算法優(yōu)化與硬件升級,群體具身智能的完善將推動智能制造與人機協(xié)作邁向新高度。
基礎技術的快速迭代加速著具身技術的應用,在十五個方向中包括了:具身大模型、具身世界模型構建、具身智能仿真平臺、仿真到真實環(huán)境的遷移與泛化。
模型技術自然是具身智能實現(xiàn)的基石,在其他技術方向上,也或多或少能看見模型技術的影子。面向具身智能應用領域的多模態(tài)具身大模型,能夠幫助機器人真正理解這個世界,對人類發(fā)出的指令進行拆解、邏輯推理和規(guī)劃決策,再分配給不同的小腦模型來執(zhí)行。具身大模型是全球諸多機器人公司和研究機構追捧的前沿課題。
此前Figure發(fā)布的Helix,內(nèi)置擁有70億參數(shù)的開源端側互聯(lián)網(wǎng)預訓練視覺語言模型用于處理語音和視覺信息,和8000萬參數(shù)的AI模型用于將指令轉化為精確的機器人動作;智元機器人發(fā)布的通用具身基座大模型智元啟元大模型則憑借強大的泛化能力,能夠在極少的數(shù)據(jù)甚至零樣本下泛化到新場景、新任務,降低具身大模型的使用門檻;不久前優(yōu)艾智合聯(lián)合西安交大具身智能機器人研究院團隊構建的“一腦多態(tài)”的具身智能大模型,同樣采用多模態(tài)通用基座大模型,還加上了“一腦多態(tài)”端側具身模型的混合架構;魔法原子近期也公開了首個具身智能大模型“原子萬象”。

對于帶有執(zhí)行功能的具身機器人終端側設備來說,構建多模態(tài)具身大模型是通往高階智能的必經(jīng)之路。與此同時,多模態(tài)具身大模型和硬件算力的適配,則是能否真正應用起具身大模型能力的重點,也是推進具身設備落地的關鍵。
數(shù)據(jù)融合后高復雜性需要恰當?shù)挠嬎阗Y源讓整個具身大模型系統(tǒng)運轉起來。多模態(tài)具身模型與硬件算力的結合正在積極涌現(xiàn),眾多具身端側大模型紛紛與英偉達、紫光展銳、高通、瑞芯微、英特爾等算力硬件廠商展開深度合作,釋放具身大模型潛力。具身模型與硬件算力結合落地,讓具身智能設備進入商用的步伐加速。
在物聯(lián)網(wǎng)智庫近期的采訪中,也了解到不少算力模組廠商如移遠通信、廣和通、比鄰智聯(lián)等,正在積極布局機器人模型“大小腦”,通過算力、模型、連接多方面的工程化能力加速下游機器人本體廠商應用起AI能力。
具身世界模型根據(jù)英偉達官網(wǎng)的定義,即理解現(xiàn)實世界動態(tài)的生成式AI模型,能夠理解現(xiàn)實世界環(huán)境的物理特性,從而對運動、應力以及感官數(shù)據(jù)中的空間關系等動態(tài)進行表示和預測。在終局的物理AI世界,具身世界模型是連接虛擬與現(xiàn)實的橋梁,是能夠表征世界運作邏輯的空間智能。

以NVIDIA面向物理AI發(fā)布的“世界基礎模型”Cosmos為例,它能通過生成合成數(shù)據(jù),使用包括文本、圖像、視頻和運動在內(nèi)的輸入數(shù)據(jù)來生成和仿真虛擬世界,以準確模擬場景中物體的空間關系及其物理交互。目前具身世界模型正處于初步發(fā)展階段,但不可否認的是構建具身世界模型在具身環(huán)境的訓練決策中起著至關重要的作用,它讓現(xiàn)實世界中原本成本高昂依賴真實數(shù)據(jù)的模擬在虛擬環(huán)境和數(shù)據(jù)下成為可能。
涉及到大量虛擬數(shù)據(jù)構建與仿真,具身智能仿真平臺、仿真到真實環(huán)境的遷移與泛化自然是具身智能重要的研究方向。筆者在此前的文章《機器人與模型深度融合開啟智能升級下半場,智能終端的未來終局是物理AI》中也提到過,“和傳統(tǒng)模型不一樣,機器人世界模型所需的訓練數(shù)據(jù)需要精確標定來進行學習和泛化,而且很難從現(xiàn)實世界完成龐大的采集量且采集后多模態(tài)數(shù)據(jù)很難標定,度量不一這些數(shù)據(jù)就無法被模型利用。從Sim到Real也就成了更有效率的一條路”。
在這些重點技術方向上,世界基礎模型提供物理世界知識和高仿真數(shù)據(jù),奠定泛化基礎,端側的具身大模型經(jīng)細化、壓縮及多模態(tài)融合優(yōu)化,適配具身設備算力需求充分釋放應用潛力,共同推動著具身智能邁入物理AI終局。
在最后一個分類中,是和安全與倫理相關的具身智能安全、具身意識與情感。目前這一塊的建設還比較稀缺,且具身機器人還沒有進化到具備意識與情感的階段,但未雨綢繆提前布局總是好的,確保具身技術應用符合倫理規(guī)范并規(guī)避潛在風險,是未來具身智能設備可持續(xù)發(fā)展的必要條件。
具身智能十五大重點方向,囊括從底層感知到高層決策、從單機到系統(tǒng)、從技術突破到社會落地的完整鏈條。這些方向的明確為后續(xù)具身智能產(chǎn)業(yè)鏈布局提供了參考,在模型技術、算力硬件、運控技術、感知技術等基礎軟硬件協(xié)同發(fā)展的推動下,國內(nèi)具身智能將逐步實現(xiàn)從概念到實際落地應用的跨越。