“稚暉君”的機器人長腦子了

DoNews

2025-03-19 12:43:00

DoNews

關注

2025-03-19

AI就快要幫助人類做大事了。

撰文 | 雁? 秋??編輯 | 李信馬??來源/Donews

今年「兩會」，“具身智能”首次被寫入政府工作報告。這也就意味著，機器人走入工廠、車間、超市、甚至尋常百姓家的進程，都被按下了加速鍵。

相關賽道被持續關注和推動，一位90后在這幾天冒出了尖兒。

3月10日，智元機器人聯合創始人稚暉君（彭志輝）在社交平臺公布其團隊最新研究成果——首個通用具身基座模型：智元啟元大模型（Genie Operator-1，下文簡稱 GO-1）。

這是全球第一個基于大規模、高質量自有數據，基于自有機器人本體訓練并部署的機器人基座模型。

11日，靈犀X2發布，這是可以支持高自由度能力且搭載情感計算引擎的機器人，不僅能回答稚暉君提出的各種問題，還可以精準判斷晚上該喝牛奶還是咖啡。

業內人士認為，智元機器人在人形機器人領域即將迎來重大技術或產品突破。正如稚暉君在預熱視頻中所說：“我們不是在制造工具，而是在創造新物種。”

當前機器人技術面臨很多困境，IDC中國研究經理李君蘭接受DoNews采訪時談到，硬件維度的優化、機器人行動控制協調能力，以及場景遷移泛化、高計算資源消耗等等，都亟需一一解決。稚暉君的這個“新物種”，能成為機器人的對癥之藥嗎？

01.機器人即將擁有“人腦”

行業對于機器人寄予厚望，它們的外形不僅要像人，“大腦”也要像人腦一樣，具備學習思考的能力，要越學越聰明。

GO-1的作用就是幫助機器人大腦進化，其開創提出了ViLLA架構，該架構由VLM（多模態大模型） + MoE（混合專家）組成。

VLM，借助海量互聯網圖文數據獲得通用場景感知和語言理解能力；
MoE，包括「隱式規劃器」和「動作專家」。前者借助大量跨本體和人類操作視頻數據，獲得通用的動作理解能力；后者借助百萬真機數據，獲得精細的動作執行能力。

簡單理解就是，當相機的視覺信號加上人類的語言指令，通過ViLLA框架，便能輸出機器人的動作執行。

具身智能模型的四類訓練數據圖源：智元機器人

從官方的解讀看，GO-1除了拓展機器人的運動能力，更重要的是加強了其AI能力，可以總結為幾大特點：

1、人類視頻學習，結合互聯網視頻和真實人類示范進行學習，增強模型對人類行為的理解（學習人類倒水，即使隨意移動水杯位置）。

2、小樣本快速泛化：GO-1具有強大的泛化能力，使得后訓練成本非常低，能夠在極少數據甚至零樣本下泛化到新場景、新任務（除了倒水，還能烤面包、抹果醬，這些是之前沒有學過的場景）。

3、一腦多形：GO-1能夠在不同機器人形態之間遷移，快速適配到不同本體（多個機器人共同協作完成復雜任務）。

4、持續進化：GO-1搭配智元一整套數據回流系統，可以從實際執行遇到的問題數據中持續進化學習（對機器人放咖啡杯時出現的失誤進行優化）。

智元發布的實驗數據顯示，相比已有的最優模型，GO-1的平均成功率提從46%提升至78%。部分業內人士認為，GO-1的這個模型架構很簡單，創新之處并不多，主要是對已有工作、數據和訓練方式做了大幅整合。

除了GO-1之外，智元還發布了機器人本體：靈犀 X2，它重達33.8千克，全身有28個自由度，沒有使用任何一個并聯結構。

在視頻展示中，它能夠0幀起手快速讀取藥品說明書，可以駕駛滑板車和平衡車，還能用針縫葡萄。

它還很有人情味，在問它：“與狗落水先救誰” 的倫理問題時，也能給出符合人類價值觀的回答。

據彭志輝介紹，智元為靈犀X2開發出一套基于Diffusion（擴散模型）的生成式動作引擎。這使得機器人不僅四肢發達，頭腦也并不簡單。隨著機器人具身大腦的持續迭代，未來智元會賦予機器人更多復雜作業的能力。

02.建廠訓練，開源降本

過去一年，具身智能、人形機器人的關注度持續上升，但擺在從業者面前的困境卻是復雜又現實的。

機器人要想成功商業化，實訓是最重要的一步，而獲取并訓練真實場景內的數據，通常是最困難的。

與大語言模型不同，機器人“大腦”的訓練需要更多來自物理世界即真實世界動態環境中的交互數據，且需要大量的設備、時間進行采集。如何獲取、怎么獲取，以及對已有數據的標準化，成為人形機器人技術演進路上的最大難題。

DoNews記者了解到，目前人形機器人獲取數據的方法，主要包括遙操作機器人數據、人類動作捕捉數據、仿真合成數據以及一些特定的技術和框架。

圖源：DoNews整理

智元機器人是怎么解決數據問題的呢？他們選擇建廠實操。

在上海，智元建了一座“數據采集工廠”，占地約3000平米，里面分布著多個不同主題的房間，每個房間都還原了現實生活的物件布局，機器人就在當中學習不同的技能：疊衣服、整理餐桌、打餐、掃碼收銀......

智元甚至為機器人安排了“一對一教學”，數據采集員手把手地控制機器人完成抓、握、放等動作，以求更精準地讓機器人模仿學習。每完成一個動作，就相當于收集了一條數據，智元據此進一步訓練機器人的大模型，這也是GO-1之所以推出的基礎底座。

2024年底，智元將數據集開源，這個AgiBot World（智元世界）匯集了百萬真實機器人的數據，復刻了家居、餐飲、工業、商超和辦公五大核心場景。部分業內人士認為，這不僅能降低訓練成本，也會非常有利于行業統一標準，減少重復無用功。

開源是一種思路，但也不是說機器人企業都會選擇開源，宇樹機器人就一直保持不開源的發展策略，目前已經成為全球機器人生產企業中的頂流。

說到底，核心的問題還是在于機器人能否滿足人們的要求。一位關注具身智能賽道的人向DoNew表示，數據集的推動作用有多大，還需要在投入實際訓練后再進行判斷。

“人形機器人，本質上就是要它要面對各種各樣的場景，最好是什么都能做。當某個場景變了，機器人是不是依舊可以準確做出判斷？比如倒水，我換一個場景，又要怎么抓？背后可能又需要幾萬甚至上億的數據。未來5到10年能不能滿足這個條件，現在還不好說。”

03.“好東西”能支撐未來嗎？

智元機器人之所以受到業內如此高的關注，一大原因是創始人、CTO、首席架構師「稚暉君」彭志輝。

彭志輝是B站“年度百大UP主”，還是華為的“天才少年”，得到過任正非的稱贊。

2022年12月，他在微博上正式宣布自己離開華為，去追求自己夢想和熱愛的事業，“如果程序員是數字世界的上帝的話，那親手給機器人以身形，再用AI賦其靈魂，這就是真極客的浪漫啊！”

2023年，彭志輝創立智元機器人，僅用18個月完成從概念到量產的技術跨越。截止2025年3月，智元機器人至少完成了8輪融資（A輪），發布了5款人形機器人，1000多臺產品在臨港新片區量產下線。

智元機器人再度將具身智能推向臺前，但也引發了相關思考。

首先是，大模型真的能完美賦能機器人嗎？智元官方稱，“對機器人公司來說，如果不做大模型，那是屬于沒有未來的機器人。”

但另一家頭部公司卻不這么看。去年8月，宇樹科技創始人王興興向媒體表示，具身智能大模型的研發太燒錢，而且技術路線目前仍不像大語言模型那么清晰，宇樹科技對此選擇謹慎投入。

目前的問題是，大預言模型都暫未解決「幻覺」問題，機器人又缺乏高質量數據，能否做到零失誤？

據相關報道，許多機器人廠商在demo里展示某個動作足夠酷炫，背后實則經歷了一天的拍攝。2024年的機器人大會上，多個機器人在參展時就曾出現Bug、失誤的問題。比如完成一個只需要移動20厘米的抓取動作，需要近40秒，或者將炒好的菜在眾目睽睽之下倒在了桌子上。

再有就是商業化問題。落地能力是判斷一家機器人公司是否靠譜的重要指標，智元機器人的商業模式只是初步得到驗證，至于規模化擴張、擴大市場份額等前景還不明顯。

更需要重視的是隱私安全，GO-1里所謂人類視頻學習功能，會涉及到大量非授權數據采集。盡管智元承諾模糊人臉與敏感信息，但如何界定“合理使用”邊界仍是法律空白。

尾聲

從DeepSeek刷屏，到Manus突擊，再到機器人大模型，2025開局不到3個月，人們就被創新者們「激進」的步伐一次次震撼。智元的“好東西”具體有多少落地的可能，我們暫時先打個問號，但有一點可以確定：AI就快要幫助人類做大事了。

風險提示:

本網站內用戶發表的所有信息（包括但不限于文字、視頻、音頻、數據及圖表）僅代表個人觀點，僅供參考，與本網站立場無關，不構成任何投資建議，市場有風險，選擇需謹慎，據此操作風險自擔。

此文為原作者或媒體授權發表于野馬財經網,且已標注作者及來源。如需轉載，請聯系原作者或媒體獲取授權。

本網站轉載的屬于第三方的信息，并不代表本網站觀點及對其真實性負責。如其他媒體、網站或個人擅自轉載使用，請自負相關法律責任。如對本文內容有異議，請聯系：contact@yemamedia.com

點贊

“醬香拿鐵”后，茶飲聯名走向“深度and小而美”

“小雨傘”母公司手回集團再沖IPO：業績大幅波動，對賭協議高懸現金流吃緊

久久嗨_免费在线观看国产_精品午夜久久_欧美精品一级_亚洲男人的天堂在线视频_亚洲一区在线免费视频

“稚暉君”的機器人長腦子了

0條評論

暫時沒有人評論