具身智能是人工智能(AI)與其他學(xué)科交叉融合發(fā)展的智能新范式,從字面可理解為“具身+智能”,通過賦予AI“身體”,能夠與現(xiàn)實產(chǎn)生交互,讓AI從僅存于數(shù)字世界的軟件算法走向真實的物理世界,并在物理世界也能呈現(xiàn)模擬人類甚至超越人類的智能水平。伴隨大模型的技術(shù)突破、硬件成本的降低、軟硬協(xié)同的不斷成熟,能夠主動探索世界、認識世界、改變世界的具身智能,有望成為邁向通用人工智能的重要驅(qū)動力,同時不斷延伸和拓展AI邊界,實現(xiàn)“知行合一”。
2024年8月22日,2024世界機器人大會——具身智能產(chǎn)業(yè)趨勢與未來發(fā)展論壇上,中國信息通信研究院(簡稱“中國信通院”)與北京人形機器人創(chuàng)新中心有限公司共同發(fā)布《具身智能發(fā)展報告(2024年)》。
報告致力于厘清具身智能的概念內(nèi)涵、演進歷程、技術(shù)體系,通過梳理當(dāng)前具身智能技術(shù)發(fā)展現(xiàn)狀,研判分析具身智能應(yīng)用潛力與帶來的影響,并總結(jié)當(dāng)前產(chǎn)業(yè)應(yīng)用困難與挑戰(zhàn),展望思維智能和行動智能有機融合的無限可能。
報告核心觀點
1. 具身智能:依靠物理實體通過與環(huán)境交互來實現(xiàn)智能增長的智能系統(tǒng)
當(dāng)前,針對具身智能各家觀點百花齊放,但都明確了“智能”的核心地位。因此,本報告從AI視角切入,認為具身智能是指通過機器人等物理實體與環(huán)境交互,能進行環(huán)境感知、信息認知、自主決策和采取行動,并能夠從經(jīng)驗反饋中實現(xiàn)智能增長和行動自適應(yīng)的智能系統(tǒng)。
2. 具身智能與離身智能相互補充、協(xié)作發(fā)展共同促進了對智能的理解、模擬與擴展——具身智能時代有望來臨
結(jié)合人工智能的演進歷程,具身智能的發(fā)展大致可以分為三個階段,即:早期萌芽階段(1950s-1990s),在對智能的激烈爭論和分立研究中,形成AI三大學(xué)派,尚未形成成熟的智能理論;技術(shù)積累階段(1990s-2022),隨著智能理論的完善、底層數(shù)學(xué)理論的深耕,AI三大學(xué)派從各自突破,逐步走向取長補短的綜合性研究,為具身智能發(fā)展奠定理論和算法基礎(chǔ);技術(shù)突破階段(2022年至今),以ChatGPT為代表大模型的通用知識和智能涌現(xiàn)能力為機器人實現(xiàn)智能感知、自主決策乃至擬人化交互方面帶來巨大潛力。當(dāng)前人們的關(guān)注點轉(zhuǎn)向如何將AI應(yīng)用于物理世界,并期望通過AI的“具身化”找到新的智能增長點。
3. 具身智能技術(shù)尚處于多條路徑探索發(fā)展階段,可以類比于自然語言處理領(lǐng)域的“BERT”發(fā)展時期
具身智能技術(shù)體系可分為“感知—決策—行動—反饋”四個模塊形成一個閉環(huán),在與環(huán)境的不斷交互中,實現(xiàn)對環(huán)境的重構(gòu)映射、自主決策和自適應(yīng)行動,并從經(jīng)驗反饋中不斷學(xué)習(xí)進化。
4. 具身智能將在技術(shù)涌現(xiàn)式創(chuàng)新和突破下,實現(xiàn)“一腦多形”“一機多用”
具身智能將成為與各行各業(yè)深度融合的創(chuàng)新驅(qū)動力,其相關(guān)應(yīng)用有望快速擴展至社會經(jīng)濟的各個層面,推動著生產(chǎn)力的躍升和生活方式的變革。有望實現(xiàn)“一腦多形”即讓一個智能系統(tǒng)適配各種形態(tài)的物理實體,如智能機器人、智能車輛等; 將實現(xiàn)“一機多用”,即讓一個機器設(shè)備可以靈活地執(zhí)行多種任務(wù),適應(yīng)多樣化場景。未來將從工業(yè)協(xié)作生產(chǎn)到柔性制造,從家務(wù)助手到醫(yī)療護理,從災(zāi)難救援到太空探索,深入融入人類社會。
5. 具身智能在感知與認知、學(xué)習(xí)與泛化、計算能力、多任務(wù)處理、安全性、隱私保護以及人機關(guān)系等多個方面都面臨著挑戰(zhàn)
算法層面:具身智能系統(tǒng)在實現(xiàn)通用智能時面臨兩大根本性挑戰(zhàn)。一是系統(tǒng)需要人類智能的介入,二是尚未實現(xiàn)感知到行動間的認知映射。數(shù)據(jù)層面:缺乏數(shù)據(jù)成為具身智能能力突破的重要壁壘。一方面,真實數(shù)據(jù)面臨獲取成本過高,廣泛、高質(zhì)量和多樣化的挑戰(zhàn)。另一方面仿真合成數(shù)據(jù)面臨“現(xiàn)實差距”——即模擬環(huán)境與現(xiàn)實世界之間的差異挑戰(zhàn)。軟件層面:缺乏統(tǒng)一的操作系統(tǒng)和標(biāo)準(zhǔn)化軟件開發(fā)工具鏈。硬件層面:耐用性和能源效率以及與軟件的深度集成需求構(gòu)成了具身智能硬件發(fā)展的主要障礙。標(biāo)準(zhǔn)與合規(guī)層面:具身智能技術(shù)、評測、安全倫理等標(biāo)準(zhǔn)缺失,面臨信息安全、個人隱私等一系列倫理和社會學(xué)問題。