中國信通院許志遠:人工智能為通用機器人打開大門
“以大模型為代表的人工智能技術突破性發展,為通用機器人打開了大門。目前硬件解決方案基本收斂,但軟件算法仍在快速迭代創新,數據稀缺性是機器人能力泛化的關鍵制約?!痹?2月23日舉辦的“2025中國信通院深度觀察報告會”上,中國信息通信研究院副總工程師許志遠拋出了這一觀點。
在許志遠看來,人工智能技術突破性發展,其核心是增強機器人的認知與交互能力,并賦予機器人在物理世界中執行任務的強大泛化能力?!澳芰Ψ夯梢岳斫鉃橐环N遷移學習,即把從過去的經驗中學習到的知識、策略和行為應用到新領域,這使機器人能在動態和復雜環境中自主進行任務理解,并通過感知、決策規劃和運動控制實現任務閉環,機器人真正成為一個能與世界交互、存在自主智能的個體?!痹S志遠進一步解釋道。
近兩年,投資市場和產業界對機器人的關注熱度高漲,“具身智能”和“人形機器人”這兩個詞高頻出現。其中,中國和美國是最活躍的兩個國家,谷歌、特斯拉、OpenAI等國外頭部科技企業紛紛加碼對機器人領域的投入,國內也涌現出銀河通用、智元等優秀的機器人企業,同時小米、小鵬等知名企業也在造人形機器人。
許志遠介紹,機器人的概念最早起源于上世紀20年代,經過多年發展,相關硬件技術趨于成熟,模塊化、高度集成等成為重要特點,移動機器人形態基本收斂至人形、四足、輪式等。
硬件創新方面,機器人主要涉及執行機構、傳感器、芯片、電池和新材料等技術。執行機構作為機器人本體的核心,近兩年已從液壓驅動轉向電驅動,相關旋轉和線性運動方案也基本清晰?!拔磥?,隨著技術進步和需求聚焦,機器人將進一步與前沿仿生、類腦等技術結合,并融合新材料、電子皮膚、仿生設計等技術,實現類人級感知與精巧操作?!?/span>
軟件算法方面,目前業界主流的智能機器人解決方案是將大腦和小腦分層。大腦負責交互、感知、決策,基于現有大語言模型(LLM)或視覺語言模型(VLM);小腦負責具體的運動控制,有的基于傳統動力學建模,還有的基于模仿學習、強化學習等技術。“未來看,隨著邊緣計算增強、交互數據豐富,軟件技術可能逐步向端到端大模型驅動的一體化架構演進,以全面實現自學習、自適應和自演化能力,即只需要一個模型便可以驅動多個不同的異構機器人?!痹S志遠說。
人形機器人距離走入日常生活還有多遠?談及這一話題,許志遠坦言,工業制造、商業服務、家庭服務將是人形機器人落地的3個主要場景,并且呈依次漸進落地的關系。未來1至3年內,用于汽車制造、商超補貨等封閉/半封閉場景的人形機器人將出現,與人共處同一場景;助老、做家務等人形機器人應用落地可能還需要5年甚至10年以上。
究其原因,許志遠表示,人形機器人在環境適應性、人機交互的自然性和接受度等方面更具優勢,是通用機器人追求的終極形態。但是,現階段“人形”并不一定是商業化落地的最優解,因此,人形機器人不一定完全仿照人來設計。短期內,市場上還會存在“主體人形”搭配“定制化組件”的機器人產品,例如,腿部采用輪式底盤或輪腿組合,上肢采用機械臂,手部為三指靈巧手或夾爪、吸盤等。
總體來看,目前人形機器人仍然不夠成熟。硬件方面,頭部公司的人形機器人產品除手部以外,全身有50多個自由度,如果在復雜環境中行走,需要更強大的運動控制能力。例如,機器人上肢想實現精細化操作,需依賴高自由度的靈巧手,但目前手部觸覺傳感器、執行機構等關鍵部分仍不完善。此外,電池續航、成本、端側算力等也是機器人規?;瘧玫闹匾y題。
除硬件以外,軟件是機器人落地的更大挑戰。大模型的本質是數據驅動,只有基于龐大的數據量進行訓練,才能實現智能。而機器人大模型與近年來成熟的大語言模型不同,語言模型所需的數據可以來自龐大的互聯網,而機器人需要物理世界中的高精度操作數據,這些數據是互聯網不具備的。只有攻克這一難題,機器人才可能大規模走入日常生活。