具身智能開始分層：誰賣整機(jī)，誰做底座，誰定義機(jī)器人的大腦

來源：澎湃新聞發(fā)布時(shí)間：2026-04-14 242

智能制造傳感器機(jī)器視覺運(yùn)動(dòng)控制工業(yè)機(jī)器人軟件及平臺(tái)工業(yè)互聯(lián)智能加工設(shè)備智能制造解決方案產(chǎn)業(yè)動(dòng)態(tài)人工智能

具身智能產(chǎn)業(yè)分工雛形顯現(xiàn)：Generalist AI以GEN-1模型將簡(jiǎn)單物理任務(wù)成功率提升至99%、執(zhí)行速度達(dá)基線3倍，聚焦可靠性/節(jié)拍/異常恢復(fù)的商業(yè)可行性驗(yàn)證

這兩年，具身智能最容易讓人看花眼。視頻越來越多，名詞越來越像，幾乎每家公司，都在講基礎(chǔ)模型（foundation model）、泛化(generalization)、端到端、多模態(tài)；也都在講機(jī)器人會(huì)抓、會(huì)放、會(huì)整理、會(huì)裝配。

表面上看，大家像是在同一條賽道上沖刺；但如果把Generalist AI的GEN-1、Figure、Physical Intelligence和Google DeepMind放在一起，就會(huì)發(fā)現(xiàn)，它們真正爭(zhēng)奪的，并不是同一個(gè)位置。

今天具身智能真正的分野，不在“都會(huì)不會(huì)做”，而在“各自想占住產(chǎn)業(yè)鏈的哪一層”。

有的公司在做更能干的機(jī)器人，有的公司在做更通用的機(jī)器人底座，還有的公司，已經(jīng)在試圖搶占機(jī)器人時(shí)代的上層操作系統(tǒng)。看不清這一層，就容易把不同公司的路線混成一句空洞的話：都在做“機(jī)器人大模型”。可真正重要的問題，不是誰更會(huì)講“大模型”，而是誰更接近商業(yè)閉環(huán)，誰更有可能變成別人繞不過去的基礎(chǔ)設(shè)施。

先看Generalist AI。它最值得注意的地方，不是會(huì)講“通用智能”的大詞，恰恰相反，它的表述非常像產(chǎn)業(yè)語言。2026年4月2日發(fā)布的技術(shù)長文《GEN-1：將具身基礎(chǔ)模型擴(kuò)展到“精通”階段》（GEN-1: Scaling Embodied Foundation Models to Mastery）里，GEN-1 給出的核心指標(biāo)很直接：在若干簡(jiǎn)單但高價(jià)值的物理任務(wù)上，平均成功率從 GEN-0的64%提高到99%，執(zhí)行速度達(dá)到此前若干基線模型的約3倍，而且每項(xiàng)結(jié)果所需的機(jī)器人數(shù)據(jù)壓到約1小時(shí)。文章也說得很清楚，GEN-1的目標(biāo)不是“所有任務(wù)都解決”，而是讓一批簡(jiǎn)單任務(wù)先跨過商業(yè)可行性的門檻。

這件事為什么這么重要？因?yàn)樗那母膶懥藱C(jī)器人行業(yè)的評(píng)價(jià)標(biāo)準(zhǔn)。過去大家最愛問的是：機(jī)器人會(huì)不會(huì)做這件事？現(xiàn)在Generalist把問題改成：它能不能穩(wěn)定做、夠不夠快、出了意外能不能自己補(bǔ)救？也就是它所謂的“掌握”(mastery)，由可靠性、速度和即興應(yīng)變?nèi)糠纸M成。

這個(gè)定義的關(guān)鍵，不在于概念新，而在于它更接近工廠和倉配中心的真實(shí)尺度。真正有價(jià)值的，從來不是它做成過一次，而是它能連續(xù)做一百次、兩百次，速度還不拖節(jié)拍。文章里展示的掃地機(jī)器人維修、盒子折疊、手機(jī)裝箱等任務(wù)，都不是為了證明它有多聰明，而是為了證明它開始值錢。

具身智能能不能落地，最終拼的不是驚艷時(shí)刻，而是重復(fù)性、節(jié)拍和異常恢復(fù)。

更深一層看，GEN-1押注的，也不是傳統(tǒng)意義上的大規(guī)模機(jī)器人數(shù)據(jù)，而是超大規(guī)模“物理交互經(jīng)驗(yàn)”。Generalist認(rèn)為，GEN-1的底座建立在超過50萬小時(shí)的高保真物理交互數(shù)據(jù)之上，且這些數(shù)據(jù)主要不是機(jī)器人數(shù)據(jù)。在遷移到新任務(wù)、新機(jī)器人時(shí)，再用少量真機(jī)數(shù)據(jù)完成適配。早在GEN-0時(shí)代，它就已經(jīng)把這套邏輯表述為機(jī)器人領(lǐng)域的“規(guī)模定律”，并聲稱在更大模型區(qū)間觀察到類似“智能閾值”的現(xiàn)象。

說得更直白一點(diǎn)，Generalist在賭一件事：未來機(jī)器人世界也會(huì)像大語言模型世界一樣，底座經(jīng)驗(yàn)會(huì)越來越重要，真機(jī)數(shù)據(jù)會(huì)從“主糧”變成“微調(diào)料”。

如果說Generalist在回答哪些工位已經(jīng)能賺錢，F(xiàn)igure回答的則是另一件事：人形機(jī)器人能不能作為一種完整產(chǎn)品成立。Figure則更像在證明人形機(jī)器人（humanoid）本身可以成為一種完整產(chǎn)品。它關(guān)心的不是抽象底座，而是把機(jī)器人本體、模型、機(jī)載推理、場(chǎng)景數(shù)據(jù)和商業(yè)部署整合成一套閉環(huán)。

Helix是Figure在2025年2月發(fā)布的一套視覺—語言—動(dòng)作模型（VLA），能夠把感知、語言理解和控制統(tǒng)一到一個(gè)模型里。它既能理解自然語言和場(chǎng)景，又能把這些理解實(shí)時(shí)轉(zhuǎn)成身體動(dòng)作。更關(guān)鍵的是，Helix不是停留在云端演示層，而是可以直接運(yùn)行在機(jī)器人機(jī)載芯片上。這說明 Figure 押注的不是抽象底座，而是一條圍繞自家機(jī)器人展開的產(chǎn)品化路線。

這條路很像電動(dòng)車產(chǎn)業(yè)里的整車廠邏輯，而不是操作系統(tǒng)邏輯。模型為本體服務(wù)，本體為部署服務(wù)，部署再反哺數(shù)據(jù)。最終指向的，是一臺(tái)可復(fù)制、可交付、可維護(hù)的人形機(jī)器人，而不是一個(gè)能賣給所有機(jī)器人的開放底座。后續(xù)Helix 02又把能力從桌面上的手部操作，推進(jìn)到需要整個(gè)身體連續(xù)參與的任務(wù)。與此同時(shí)，F(xiàn)igure還提出用大規(guī)模第一視角人類視頻，讓機(jī)器人先學(xué)會(huì)人在家庭和建筑空間里通常如何移動(dòng)、操作和完成任務(wù)。

Figure的野心，不是提供某一層能力，而是把“機(jī)器人本體”做成入口。

Physical Intelligence更像是在爭(zhēng)奪“機(jī)器人時(shí)代的中間層”。它并不急著圍繞某一款機(jī)器人講產(chǎn)品故事，而是試圖先做出一個(gè)可跨不同機(jī)器人形態(tài)遷移的基礎(chǔ)模型。π0走的就是這條路：一邊吸收互聯(lián)網(wǎng)規(guī)模的視覺—語言知識(shí)，一邊學(xué)習(xí)真實(shí)機(jī)器人動(dòng)作數(shù)據(jù)，目標(biāo)是把“看懂、聽懂”和“會(huì)動(dòng)、會(huì)控”連接到一起。它后續(xù)幾乎所有工作，追問的都是同一個(gè)問題：能不能讓一套底座跨機(jī)器人、跨任務(wù)、跨數(shù)據(jù)源復(fù)用。

如果說Figure更像在造整車，那么Physical Intelligence更像在做發(fā)動(dòng)機(jī)和底盤平臺(tái)。它關(guān)心的，不是哪一臺(tái)機(jī)器人先賣出去，而是能不能先做出一層被不同機(jī)器人反復(fù)調(diào)用的通用底座。要是這條路成立，未來很多機(jī)器人公司的差異，可能不在模型是不是自研，而在誰更能把這層共通能力落到自己的產(chǎn)品和場(chǎng)景中。

Google DeepMind的路徑又更高一層。它真正想搶占的，不是終端產(chǎn)品，也不只是動(dòng)作控制，而是機(jī)器人如何理解任務(wù)、安排步驟和組織行動(dòng)的那一層。Gemini Robotics 1.5的表述很能代表這種思路：一部分能力負(fù)責(zé)把視覺信息和指令轉(zhuǎn)成動(dòng)作，另一部分能力負(fù)責(zé)理解環(huán)境、拆解任務(wù)、規(guī)劃步驟，并在需要時(shí)調(diào)用數(shù)字工具。它想提升的，不是機(jī)器人能不能做出一連串動(dòng)作，而是機(jī)器人能不能真正理解任務(wù)，并把復(fù)雜事情一步一步做完。

這條路線最像未來機(jī)器人世界里的操作系統(tǒng)。它不一定最先把某個(gè)工位打穿，也不一定最先賣出最多機(jī)器人，但它試圖定義一個(gè)更高的位置：誰來負(fù)責(zé)機(jī)器人理解世界、拆解任務(wù)、規(guī)劃步驟，再把這些能力輸送給不同的機(jī)器人本體。

如果說Figure想做整機(jī)入口，Physical Intelligence想做通用平臺(tái)，那么DeepMind想占住的，是機(jī)器人如何“思考”的那一層。

把這四條路放在一起看，就會(huì)發(fā)現(xiàn)，今天具身智能真正的競(jìng)爭(zhēng)，不是簡(jiǎn)單的模型競(jìng)爭(zhēng)，而是產(chǎn)業(yè)分工位置的競(jìng)爭(zhēng)。

Generalist在爭(zhēng)“先賺錢”的位置。它關(guān)心的是，哪些簡(jiǎn)單但高價(jià)值的物理任務(wù)已經(jīng)能被基礎(chǔ)模型推過投資回報(bào)率（ROI）門檻。它的硬指標(biāo)是成功率、節(jié)拍、恢復(fù)能力和少量真機(jī)適配。Figure在爭(zhēng)“終端入口”的位置。它想把人形機(jī)器人做成產(chǎn)品，而不是做別人的底座。Physical Intelligence在爭(zhēng)“通用能力層”的位置。它押注的是跨本體遷移，關(guān)心多數(shù)據(jù)源、多本體、多任務(wù)匯聚成統(tǒng)一基礎(chǔ)策略的可能性。DeepMind在爭(zhēng)“認(rèn)知層”的位置。它想把大模型時(shí)代已經(jīng)成熟的推理、規(guī)劃和工具調(diào)用，延伸到物理世界。

如果只看未來兩三年，我的判斷是，最容易先拿到結(jié)果的，是Generalist和Figure。但兩者的“近”，并不是同一種近。Generalist更接近某些窄工位開始形成正向經(jīng)濟(jì)賬；Figure 更接近人形機(jī)器人作為完整產(chǎn)品逐步進(jìn)入真實(shí)部署。

而從更長周期看，真正可能決定行業(yè)權(quán)力結(jié)構(gòu)的，反而未必是最先出貨的那一家，而可能是最先占住“底座層”和“認(rèn)知層”的那一家。因?yàn)橐坏C(jī)器人開始規(guī)模化部署，利潤池往往會(huì)向平臺(tái)層、模型層和系統(tǒng)層上移。先拿訂單，未必就能最后定規(guī)則；先占住底座和認(rèn)知層，才更有可能在產(chǎn)業(yè)成熟后掌握更大的價(jià)值。

所以，今天看具身智能，最怕的不是分歧太多，而是看不清楚分歧。未來這個(gè)產(chǎn)業(yè)大概率不會(huì)“一家公司通吃”，而會(huì)分化出不同層級(jí)、不同位置的玩家：有人負(fù)責(zé)證明機(jī)器人能賺到第一筆錢，有人負(fù)責(zé)把機(jī)器人做成可部署的終端產(chǎn)品，有人負(fù)責(zé)提供跨本體遷移的基礎(chǔ)能力，還有人負(fù)責(zé)定義機(jī)器人如何理解世界、思考和行動(dòng)。今天這四家公司，恰好站在這幾種角色的雛形上。與其問誰最強(qiáng)，不如問誰占住了最難替代的位置。

從這個(gè)意義上講，具身智能真正的戰(zhàn)爭(zhēng)，才剛剛開始。它已經(jīng)不再只是實(shí)驗(yàn)室里的算法競(jìng)賽，也不只是社交媒體上的視頻競(jìng)賽，而是在悄悄演變成一場(chǎng)圍繞終端、本體、底座和認(rèn)知層展開的產(chǎn)業(yè)制高點(diǎn)爭(zhēng)奪戰(zhàn)。

誰在做機(jī)器人，誰又在做機(jī)器人時(shí)代的“安卓”，幾年后會(huì)越來越清楚。

關(guān)注微信公眾號(hào) - 榮格智能制造

聚焦智能制造領(lǐng)域前沿資訊。

推薦新聞

网站在线观看视频免费-av网站在线播放网站-亚洲人成激情在线播放国-99久久久精品免费看国产-色yy香蕉一区二区三区-五十路日韩人妻无码-日韩精品人妻系列无码专区视频-日本放荡的熟妇在线-国产网红主播一区二区

具身智能開始分層：誰賣整機(jī)，誰做底座，誰定義機(jī)器人的大腦