在與OpenAI分道揚鑣之后,F(xiàn)igure沒有停下機器人與AI結(jié)合的腳步,發(fā)布了具身模型Helix。Helix是一款對整個人形機器人上半身進行高頻率、連續(xù)控制的視覺-語言-動作(VLA)多模態(tài)模型。VLA模型不僅僅是機器人智能化關(guān)鍵技術(shù),應(yīng)該說智能硬件發(fā)展到高階智能,多模態(tài)能力都是其核心功能。在上篇文章中也提到過,在觸覺相關(guān)的感知與處理能力成熟后,VLA發(fā)展成全模態(tài)的視覺-觸覺-語言-動作VTLA模型也是必要的。
和機器人有著很多共同技術(shù)棧的智能汽車行業(yè),有著多模態(tài)能力的VLA模型亦在加速崛起。不少智駕從業(yè)人士將VLA模型視為當(dāng)下繼特斯拉端到端方案之后的端到端2.0版本,被譽為“端到端與多模態(tài)模型融合得更徹底的產(chǎn)物”。VLA模型從多種傳感器數(shù)據(jù)中提取豐富的內(nèi)外部信息,再借助語言端側(cè)模型理解指令最后轉(zhuǎn)化為駕駛操作指令,推動智能駕駛向L3L4等級發(fā)展。中國乘用車產(chǎn)業(yè)聯(lián)盟秘書長近期也表示在量產(chǎn)車市場,未來VLA模型有望成為高階智駕的標(biāo)配。
在VLA模型的帶動下,具備多模態(tài)交互推理能力的多模態(tài)模型成為焦點。北大團隊在公布基于DeepSeek-R1更新的多模態(tài)版DeepSeek-R——Align-DS-V時也表示“這種全模態(tài)的信息流對于大模型范式轉(zhuǎn)向通用人工智能非常重要”。

隨著DeepSeek正式開啟“開源周”,每天開源一個項目再度引發(fā)AI模型的開源潮。與此前推理模型的開源不同,這幾天AI模型在多模態(tài)領(lǐng)域“卷”了起來。持續(xù)火爆的DeepSeek本身就有著多模態(tài)框架,越來越多基于DeepSeek的改良版多模態(tài)模型涌現(xiàn)。
與此同時,和智能硬件結(jié)合的多模態(tài)模型同樣開始催生傳感器端側(cè)智能變革。沒有先進的傳感信息收集,全模態(tài)的交互處理能力就無用武之地。多模態(tài)模型加持的終端設(shè)備,正在推動傳感器向AI傳感器變革。
然而多模態(tài)模型的應(yīng)用并非沒有挑戰(zhàn),數(shù)據(jù)融合的復(fù)雜性要求極高的計算資源,而且融合后的終端側(cè)模型參數(shù)變得更大,既要求高效實時又要推理能力,這對芯片硬件有相當(dāng)高的要求。同時海量感知信息收集需要配套的先進多模態(tài)感知底座,沒有傳感基礎(chǔ)硬件的支持,一切都只是空中樓閣。
機器人賽道上從Figure的Helix來看,里面有兩個關(guān)鍵的模塊,第一個模塊是一個擁有70億參數(shù)的開源端側(cè)互聯(lián)網(wǎng)預(yù)訓(xùn)練視覺語言模型,用于處理語音和視覺信息,即VLA中的VL。第二個模塊則是一個擁有8000萬參數(shù)的AI模型,負責(zé)將語言模型發(fā)出的指令轉(zhuǎn)化為精確的機器人動作,即VLA中的A。這一架構(gòu)讓Helix能實時處理復(fù)雜場景,并提供高度精準(zhǔn)的動作反饋。
在VL部分的感知環(huán)節(jié)上這里主要集中在視覺和語言信息的融合上,將攝像頭、用戶語言等各種感知數(shù)據(jù)收集,進而轉(zhuǎn)化為統(tǒng)一的token embedding用于后續(xù)處理。根據(jù)Figure介紹,Helix完全能夠在嵌入式低功耗GPU上運行。Helix VLA模型與英偉達GPU的結(jié)合給火熱的機器人賽道再次升溫。

智駕領(lǐng)域走視覺路線的Nullmax攜手黑芝麻智能也發(fā)布了基于華山系列A2000的多模態(tài)模型智駕方案,在不依賴激光雷達系統(tǒng)中,通過攝像頭、語音等多模態(tài)信息,幫助汽車獲得感官能力并實現(xiàn)多種高階智能功能。
在智駕領(lǐng)域走純視覺感知路線尚沒有定數(shù),走多傳感器融合的方案也不少,毫米波雷達、激光雷達自然也是多模態(tài)模型中重要的感知信息。華為智駕3.0的激光雷達+毫米波雷達+視覺融合的多模態(tài)模型方案搭配華為的硬件算力,亦是自動駕駛產(chǎn)業(yè)融合派的技術(shù)代表。
在AI模型上,打造高質(zhì)量LLM和多模態(tài)模型正在為AI的商用應(yīng)用和終端側(cè)推理落地做好準(zhǔn)備。對于帶有執(zhí)行功能的機器人等終端側(cè)硬件來說,從多模態(tài)模型過渡到VLA模型則是高階智能的未來。
在智能終端硬件側(cè),多模態(tài)模型和硬件算力的適配,則是能否真正應(yīng)用起多模態(tài)能力的重點,也是推進終端落地的關(guān)鍵。數(shù)據(jù)融合后高復(fù)雜性需要恰當(dāng)?shù)挠嬎阗Y源讓整個智能系統(tǒng)運轉(zhuǎn)起來。在多模態(tài)模型的技術(shù)周期,DeepSeek帶動的AI模型訓(xùn)練成本下降和開源合作上的結(jié)合能讓更多的開發(fā)者進行高質(zhì)量多模態(tài)模型開發(fā);與硬件算力的適配將進一步推動多模態(tài)能力在終端側(cè)的部署和推廣,提升終端側(cè)智能體驗。
多模態(tài)模型與硬件算力的結(jié)合正在積極涌現(xiàn),面壁智能研發(fā)基于MiniCPM系列端側(cè)多模態(tài)模型已經(jīng)與安謀科技、愛芯元智、紫光展銳、高通、瑞芯微、英特爾等算力硬件廠商展開深度合作;深思考人工智能不久前發(fā)布的鴻蒙系統(tǒng)“TinyDongni”及“DeepSeek”超小端側(cè)多模態(tài)大模型,已與國產(chǎn)頭部模組廠商廣和通、深開鴻達成合作推出適配國產(chǎn)算力的硬件解決方案。
模型層和算力層的打通,多模態(tài)模型與硬件算力適配結(jié)合落地,是終端智能設(shè)備進入千行百業(yè)的關(guān)鍵動作,點燃了智能硬件落地前景。
在多模態(tài)模型如火如荼地發(fā)展下,用于智能硬件多模態(tài)模型中的一切數(shù)據(jù)源頭都建立在傳感器帶來的輸入上,用于感知各類信息的傳感器也迎來智能變革推動力。在智能硬件上不可或缺的AI傳感迎來多模態(tài)模型技術(shù)周期里的新發(fā)展機遇。
在終端側(cè),已經(jīng)可以看到以汽車和機器人為代表的多模態(tài)感知融合+多模態(tài)模型決策能力的體現(xiàn),F(xiàn)igure的Helix更是展現(xiàn)了多模態(tài)感知融合+多模態(tài)模型決策+精確動作指令執(zhí)行的潛力。目前消費領(lǐng)域AI眼鏡依靠其多模態(tài)感知的硬件特性與多模態(tài)模型結(jié)合得很快,后續(xù)消費電子領(lǐng)域,也會出現(xiàn)更多的案例。
傳感方面視覺傳感是眾多智能設(shè)備的剛需,自然是本技術(shù)周期內(nèi)最直接的受益者。在很多消費級智能硬件中核心CMOS 圖像傳感器是視覺感知的基礎(chǔ)器件。索尼的AI圖像傳感IMX系列是其中具有代表性的傳感器件,可單獨進行圖像處理、高速邊端AI處理,能將端側(cè)模型寫入嵌入式內(nèi)存中;國內(nèi)高性能CMOS圖像傳感器芯片廠商思特威在視覺應(yīng)用場景上正在推進AI SoC+Sensor系統(tǒng)級集成的端側(cè)視覺組合;韋爾股份同樣表示看好AI視覺市場具備的高速增長潛力,在AI+圖像傳感器上已深度布局。
在直接感應(yīng)技術(shù)上雷達的應(yīng)用提供了高精度的定位,特別是4D雷達在智能家居、智能駕駛領(lǐng)域起到了關(guān)鍵作用,還有不斷下探成本的激光雷達傳感。在傳感器智能變革中,雷達芯片與AI的結(jié)合也成為關(guān)鍵創(chuàng)新點。在該領(lǐng)域領(lǐng)先的TI、英飛凌均開始在傳感芯片搭載AI處理單元來運行傳感器端側(cè)的模型向AI傳感進化。TI在最新的單芯片60GHz毫米波雷達上內(nèi)置了片上加速器和DSP來支持邊端側(cè)模型的運行。

傳感器與AI模型結(jié)合的端側(cè)傳感方案在終端設(shè)備上出現(xiàn)的越來越多,傳感器件也從單一數(shù)據(jù)采集器向智能決策節(jié)點轉(zhuǎn)變,這對實現(xiàn)更低功耗的感知決策分析,減少數(shù)據(jù)的傳輸延遲有著積極的推動作用。同時AI傳感器件通過端側(cè)模型預(yù)分析數(shù)據(jù),能為多模態(tài)模型提供結(jié)構(gòu)化信息便于進行數(shù)據(jù)融合處理解析出完備的多模態(tài)參數(shù),大幅提升硬件設(shè)備的智能化程度,這也是VLA模型所需要的。
傳感器件正在發(fā)生的智能變革,可以將其理解成智能化驅(qū)動的感知底層邏輯的重塑。傳統(tǒng)的感知范式傳感器只需要完成數(shù)據(jù)收集,將數(shù)據(jù)交給云端來做處理與決策,傳感器只需要關(guān)心精度是否足夠。而這種變革里新的范式是,傳感器收集到數(shù)據(jù)后在端側(cè)進行處理與預(yù)分析,硬件層面上算力與本地感知數(shù)據(jù)處理完成閉環(huán),既提高了也提升了設(shè)備安全,就像是給傳感器裝上了“大腦”。
更進一步的是多模態(tài)感知加多模態(tài)模型,賦予了端側(cè)設(shè)備自主理解場景的能力,多模態(tài)的信息都能被捕捉并被設(shè)備理解,推動感知系統(tǒng)從“采集-傳輸-處理”的線性鏈條向“感知-認知-行動”的閉環(huán)進化。
當(dāng)前傳感器廠商大多通過傳感硬件來做商業(yè)盈利,在傳感器智能變革的進程里,未來產(chǎn)生AI傳感器組合預(yù)測模型打包而成“傳感器即服務(wù)”的商業(yè)模式也不為奇。AI時代,硬件是身體,模型是靈魂,產(chǎn)業(yè)價值鏈條也在不斷演進。
在多模態(tài)模型基礎(chǔ)上更進一步的VLA模型給智能硬件帶來了落地支持,也推動了軟硬件廠商在多模態(tài)能力上進一步挖掘。多模態(tài)模型的不斷演進為端側(cè)智能提供了更強大的信息處理框架,而端側(cè)傳感更成熟的感知能力反哺了多模態(tài)模型落地場景的擴展,兩者的協(xié)同打造的AI傳感底座推動終端設(shè)備向更高智能化攀登。