“算力霸主”英偉達(NVIDIA)創(chuàng)始人兼CEO黃仁勛在ITF World 2023半導體大會上稱,“具身智能”將引領下一波人工智能浪潮,引發(fā)了全球范圍內對“具身智能”的關注。
具身智能的思想萌芽于人工智能誕生之初。1950年, 圖靈在其為人工智能奠基、提出圖靈測試的經典論文《Computing Machinery and Intelligence》的結尾展望了人工智能可能的兩條發(fā)展道路[1]:“We may hope that machines will eventually compete with men in all purely intellectual fields. But which are the best ones to start with? Even this is a difficult decision. Many people think that a very abstract activity, like the playing of chess would be best. It can also be maintained that it is best to provide the machine with the best sense organs that money can buy, and then teach it to understand and speak English. This process could follow the normal teaching of a child. Things would be pointed out and named, etc[2].”他提出一條路徑是聚焦抽象計算(比如下棋)所需的智能,另一條路則是為機器配備最好的傳感器、使其可以與人類交流、像嬰兒一樣地進行學習。這兩條道路便逐漸演變成了非具身和具身智能。
2023年5月份以來,學術界以李飛飛、姚期智、盧策吾、李德毅、鄭南寧等專家學者為代表,相繼發(fā)布“具身智能”相關的學術論文和演講。產業(yè)界以谷歌、特斯拉、英偉達、META、阿里、小米等巨頭公司為代表,積極跟進相關產品和技術布局。
以ChatGPT4為代表的各類大模型出現,人形機器人的再次走紅,關于所謂的“具身智能”新進展井噴式涌現,在各領域中展現出的巨大吸引力,是否代表著人工智能的關鍵問題已經解決?現有的方法是否正確?我們需冷靜下來,回歸到最基礎的定義和內涵上面,思考/厘清什么是“具身智能”?
一、“具身智能”不是什么?
當前,有以下幾種關于“具身智能”的典型觀點。
觀點1:AI(大模型)+軀體(機器人)=具身智能?
“具身智能”是指能理解、推理、并與物理世界互動的智能系統(tǒng)。[3]
該觀點認為“具身智能”是一種智能系統(tǒng),具有理解、推理并與物理世界互動的功能。通常將大模型搭載在物理軀體(如機器人)上來實現,讓大模型充當機器人的“大腦”,或者說給大模型“穿上機器人外衣”,將圖像、文字等數據輸入大模型進行聯(lián)合訓練,通過與世界交互的反饋結果,指導人為手工標注,以提高模型的泛化能力。
在LLM(大語言模型)、VLM(視覺-語言模型)、VNM(視覺導航模型)的加持下,人類用自然語言給機器人下達指令,可以看到語言指令對應任務的效果展示。但在執(zhí)行精度要求較高的任務時,需依賴于人工參與校正,即通過人輸入偏離的指令來校正機械臂,這說明該類“智能”系統(tǒng)對空間對象沒有精細辨識能力,沒有測量功能,不具備系統(tǒng)依據感測結果與基準信息的比較,也就無法做出自適應決策與規(guī)劃的智能特性,即系統(tǒng)不具備一般問題求解和響應的能力。
相關資料展示出機器人智能系統(tǒng)“與物理世界的互動”,但互動過程顯示,機器人感知對象所指“語義”是由人工標注實現的點云“視覺”信息集合,機器人大腦沒有關于對象邊界(虛-實交界)的有效度量信息,說明“它”沒有理解物理對象,只是機械的執(zhí)行人的語言指令做出一個動作進行響應。大模型是基于海量數據、在人類參與注入先驗知識基礎上訓練出來的符號相關性網絡(概率映射),無法實現物理世界中語義的“理解”。借用具身認知中“與環(huán)境交互”思想,簡單的將大模型與機器人的結合來定義/理解具身智能是不能令人信服的。
觀點2:人形機器人=具身智能?
“具身智能”是指身體并支持物理交互的智能體。[4]
人形機器人是具身通用人工智能最理想的身體形式。
該觀點認為“具身智能”是指擁有身體的智能體,通常會讓人誤認為人形機器人就是“具身智能”(這個表述本身有語法錯誤)。馬斯克推出的人形機器人Optimus(擎天柱)是典型代表,最新進展顯示其可以拿捏物品、緩慢走路等,運動控制能力持續(xù)進化。Optimus(大概率)復用特斯拉FSD自動駕駛及神經網絡學習技術,通過傳感器(相機、激光雷達)收集數據,大規(guī)模數據集對模型訓練實現識別,“智能”的實現路徑與觀點1中大模型路徑一致,瓶頸均在于用數據訓練“刷”出來的輸出結果無法有效映射物理對象,在數據匱乏領域是無法應用的。
該觀點著重強調“身體”,意在區(qū)別于符號主義主張智能是基于邏輯規(guī)則的符號操作運算,以及區(qū)別于連接主義主張智能是腦神經元構成的信息處理。人形機器人是未來泛通用機器人的最佳產品形態(tài),但“具身智能”的主體形式不必要限制在外觀上的“人形”,根據使用用途和場景的不同,可以有多種形態(tài)。僅有人的外觀,沒有實現智能本質突破的人形機器人沒有靈魂。將具有身體的智能定義為“具身智能”是不正確的,也不能以身體的形式作為判斷是否屬于“具身智能”的依據。
觀點3:盧策吾教授:“具身智能”是指一種基于物理身體進行感知和行動的智能系統(tǒng), 其通過智能體與環(huán)境的交互獲取信息、理解問題、做出決策并實現行動, 從而產生智能行為和適應性。 [1]
該觀點認為具身智能擁有支持感知和運動的物理身體,可以進行主動式感知,也可以執(zhí)行物理任務。[5]
該觀點從具身性視角將智能體與環(huán)境融合在一起,強調“感知-行動回路”的重要性,即感受世界—對世界進行建模—進而采取行動—進行驗證并調整模型的過程,關注身體與環(huán)境之間的互動在智能行為的產生和適應性提升中發(fā)揮的重要作用。
盧教授給出的“具身智能”的定義具有一定的借鑒意義,但仍然將“具身智能”歸結為一種智能系統(tǒng)。
二、“具身智能”是什么?
(1)認識論源頭:“具身智能”是以具身認知為指導的人工智能,體現哲學一元認識論思想。
具身認知屬于哲學和認知心理學的概念,是指人的認知和智力活動不是大腦的孤立計算,而是大腦、身體(通過感覺器官)及環(huán)境自適應交互作用的產物。
(2)生物智能的基礎和漸進性:參考生物智能的本質,活體生物的細胞、器官或組織、單體生物均有不同層級智能,生物智能是“肉身”物質構造的機能。
活體生物的細胞本身是信息感知和處理器官,通過代謝過程實現物質、能量與信息的轉換,完成生存、繁衍等一系列智能的表現,這構建了最低層次的智能(本能性的)。
進化到器官或組織的智能,高等動物的感覺器官(視覺、聽覺、觸覺等)發(fā)育的關鍵階段需要自主肢體運動配合,形成具有部分認知功能的智能。
進化到更高級的人整體的智能,活動環(huán)境的擴大和復雜化,對記憶和判斷、決策的要求推動大腦的形成和進化,以神經系統(tǒng)為基礎的認知功能形成。
從單細胞的智能→組織和器官的智能→高級物種整體的智能→群智能,是不斷的重組和涌現的過程。進化的成果融合在遺傳基因中,強化某些器官或系統(tǒng),影響基因、遺傳變異的來源,提高生物體生存能力。進化過程中基于少樣本和低功耗,使得智力達到更高的高度,利于物種生存和亞系繁榮。
生物智能是“肉身”物質構造的機能,強調智能信息處理依賴物質構造,物質載體不可或缺。
(3)我們關于“具身智能”的定義
“具身智能”是指主體(機器)在自體、對象與環(huán)境等要素間相互作用(信息感知、轉化和響應)的過程中建構符合各要素物理實存及其關系演化趨勢的認知模型,達成問題解決或價值實現的人工智能方法。
具身智能是一種人工智能方法,強調智能主體在處理信息時要將關注的對象、環(huán)境以及自體均要納入信息處理范圍中。
具身智能的方法是分級的嵌套的,(類比于細胞)最基礎層單元的自體物理構造與所需處理的智能任務的信息模型在數學上是同構的。例如細胞實現最低層級的智能是一個循環(huán)圖、器官和組織的智能再到生物整體的智能都表現為循環(huán)分級嵌套模型。這種類似于分形理論的循環(huán)嵌套模型,將低層級的信息做壓縮和抽象,這樣高層級的智能循環(huán)不至于太復雜。
具身智能在認知與實踐的矛盾運動中實現智能增長。智能增長是指在實踐過程中整體模型的構建和優(yōu)化,智能主體在感知到信息以后,經過決策、規(guī)劃,要對外輸出行為,這樣才能夠實現循環(huán)的閉環(huán),從而在此過程中實現智能的增長。
(4)“具身智能”的任務和使命
作為一種人工智能方法,“具身智能”要解決其他方法、工具難以解決的問題,才能展現其存在價值和生命力。
1948年,維納出版《人有人的用處》,提出“控制論”概念,1956年DARTMOUTH會議提出人工智能概念至今,人工智能科學先后發(fā)展出行為主義、符號主義、連接主義等不同的學派,用于發(fā)展“機器”智能,解決人類所關注的各種問題,取得巨大的成功。機器智能所具備的能力,應用于模擬低等生物智能、確定目標跟蹤及機器自動控制、圖片識認、語音識別與生成、機器翻譯、視頻轉換以及某些專項問題的解決等方面,表現出驚艷的能力。但是,即使大模型、生成式人工智能、人形機器人掀起全球關注的今天,我們掌握的人工智能方法仍然處于弱人工智能階段。通往高級的、與人類智能相當的人工智能方法路徑是什么?這是我們關注“具身智能”的根本原因,也是“具身智能”的使命。因此,“具身智能”關鍵任務,在于借鑒具身認知的思想,使得機器在對象識別、工具使用、推理和規(guī)劃、價值判斷、語言使用等方面基本達到人類智能的水平。其中,讓機器“理解”空間,實現“實物對象到信息端精細語義”的映射,是解決上述關鍵任務的最基礎的工作。
(5)“具身智能”的關鍵要素
①重構映射:主體對物理實存進行鏡像映射,在信息空間中基于重構映射內容的交互作用來決策和行動。
信息空間的鏡像能力是“智能進行度量、評判”的基礎。要對對象進行有效的認知,最好的方法就是在大腦里構建關于這個對象的逼真的模型和模型的演化,人類有效把握某個問題的關鍵也在于此。例如我們在現代戰(zhàn)爭中可以通過仿真模擬或沙盤模擬推演,在信息層有效映射不同要素和過程變化,使得戰(zhàn)爭指揮更有效、更高明。
重構映射中,最基礎的是視覺信息的重構。 基于視覺準確的感知和理解環(huán)境(包括對物體的理解、結構的理解、可操作性的理解),視覺感知與物理實存交互印證,這是具身智能實現的基礎。
②認知過程的交互建構:認知是在大腦-身體-環(huán)境之間互動過程中建構或構造出來的,涌現概念并強化概念內涵,在行動中反思-反思中實踐-實踐中建構的螺旋上升過程。
我們的認知過程是大腦、身體、環(huán)境的互動中不斷循環(huán)構造出來的,是動態(tài)的過程。例如戰(zhàn)爭中在無法摸清敵方兵力部署的情況下,采用炮火偵查的方式觀察敵方反應。
③通道約束:認知受感知通道、信息 [6] 輸出通道能力的約束。
感知通道的約束可以從兩個例子來理解:一個是不同傳感器下的觀測結果不同,如人眼中的月亮以及使用望遠鏡看到的月亮是不同的;另一個是在距離過大或信息通道不夠時,信息會退化,如近處的飛機可以看到詳細構造,隨著飛機越來越遠,逐漸退化成一個點,直到消失。
信息輸出通道包括動作的輸出以及語言的輸出,我們在認知形成過程中形成對對象世界改造的目的、計劃和方式的信息,通達于實踐,對世界加以改造[6]——改變物質存在的信息狀態(tài)。
三、具身智能是智能科學發(fā)展的新范式
吳易明研究員在2021年學術報告[7]中提出:具身智能是智能科學發(fā)展的新范式,強調:
(1)具身智能是對已有人工智能技術路徑(包括符號主義、行為主義、連接主義)的批判和提升,促進智能科學發(fā)展的升級與進步。
( 2)基因 [8] 決定不同生物種屬智能水平的高低,基因編碼本質是數學性的,研究中引入現代數學成果是必要的。
生物的基因實際是一種數學編碼,可以完成遺傳信息的表達與傳遞,由基因、信息生物學決定的后天發(fā)育過程是可控的,也應該是可借助數學模型解釋表征的——這需要更為抽象的現代數學工具。
(3)細胞級智能、低等生物、生物無意識行為和響應,大多服從控制論模型。
不論是生物、社會、包括物種的競爭某種意義上也服從控制論模型,“具身智能”不否定行為主義,是行為主義的延伸與提升。
(4)高級生物(動物)神經元后天發(fā)育中,自然物理規(guī)律扮演“監(jiān)督”角色。
高等生物體發(fā)育出了大腦和神經系統(tǒng),它的發(fā)育是與環(huán)境交互作用的結果,“學習”讓生物體變得更聰明,行為變化會融入后代的基因中。生物主體基于問題求解而反作用于環(huán)境的基本循環(huán),是高層次智能發(fā)生的必要基礎。“具身智能”肯定連接主義的研究,連接主義在一定范圍內是有作用的,如何劃定其有效作用的范圍,是科學家應該認真對待的課題,我們認為,其輸入端信息空間和輸出端信息空間在維度上的關系,大概是劃定其有效性的關鍵因素。
(5)接近人類的通用人工智能,最基礎的任務是實現對“物理實存對象空間及運動屬性的認知模型建構”。
(6)“語言、符號、邏輯”是人類文明高級階段的特有成果,是“人類”生物肌體映射物理世界成果的溢出和卸載,是構建高等級智能主體的基石,人類對其正確運用,依賴于有效解決哲學上的“指稱”問題。
語言、符號和邏輯是人創(chuàng)造出來用于認識世界的工具,人實現了對對象空間屬性的清晰辨識。識別實現了語義信息空間與實存對象之間的映射,是智能的基本問題。通用人工智能突破的關鍵點在于從技術上解決維特根斯坦提出的“指稱”問題。
四、總結
“具身智能”的概念是從生物進化史、人類文明史、人的成長史的源頭尋找靈感,探究智能的本質,厘清智能概念[9]的基礎上凝練而成的。
概念辨析處于科學研究首要地位,為智能科學技術突破指引方向。“具身智能”是引領未來智能科學發(fā)展新的范式。其核心在于視覺智能底層技術架構的突破和應用,即解決唯一映射問題。“具身智能”強調重構映射,應用在智能機器人系統(tǒng)中時,視覺智能技術架構的突破使得機器人將現實的感知信息“各歸其位”(數學語言到物理存在映射的唯一性),實現真正的擬人化信息處理,是機器人真正在非結構化環(huán)境中大規(guī)模落地應用的關鍵。這種架構最基礎的成分是數學的,小樣本的,而非“迷戀”大數據集、更高的算力、以及多模態(tài)等路徑。
經過八年的艱苦努力,從理論研究到產品應用落地,這個過程詮釋了“建構性”方法的運用,我們已經初步驗證了“具身智能”方法的正確性,并且看見和感受到了“具身智能”帶來突破的曙光,也看到更多的科學家涌入這個方向。我們只能依賴“人類的智能”以及人類文明的成果來研究智能的本質,“不識廬山真面目,只緣身在此山中”,這個緣由決定了研究工作必然充滿艱辛,挑戰(zhàn)諸多,但我們確信“具身智能”將開啟機器智能的新階段。
關于西安中科光電
西安中科光電精密工程有限公司成立于2013年,初創(chuàng)階段得到中國科學院西安光機所、中科創(chuàng)星強力支持,是典型的硬科技創(chuàng)業(yè)企業(yè)。公司面向智能制造、國防裝備領域,是專業(yè)從事高端智能機器人產品研發(fā)生產業(yè)務的高新技術企業(yè)。公司經過持續(xù)八年的攻關研發(fā),突破了視覺智能底層理論和技術,在2021年提出了以“具身智能”作為智能科學發(fā)展的新范式,并實現了自主智能機器人產品和業(yè)務應用落地。2022年,公司獲得“具身”、“具身智能”商標所有權,并開通具身智能公眾號及視頻號、具身智能機器人公眾號。
公司以具身智能為指導,聚焦視覺智能,解決軍工及制造業(yè)中的“精確測量、智能識別、精密控制”問題,為客戶在智能光電探測與精準識別、視覺導航、視覺智能自主機器人系統(tǒng)方面的需求提供產品和解決方案。目前已形成三大業(yè)務板塊:“仝人智能”焊接機器人、檢測機器人和特種機器人以及相關部件級產品。
相關稿件