極具設計感的休閑裝,扎起的長發,帶著金鏈的細邊眼鏡,讓多數人在第一次見到圖拉古時,都感覺他不像人工智能領域的技術專家,反而有一身的“藝術范兒”。
圈里的朋友和同事,仍會叫他“圖導”,他身上也還保留著深深的導演氣質。但近些年他卻頻繁現身技術圈,以主講嘉賓身份受邀參加各種國家級的技術交流研討會。即便是出席北京國際電影節、上海電影節、重慶電影科技周等場合,或以專家身份在清華大學、北京電影學院講課,談的也不再是電影創作,而全是關于下一代視聽技術的未來。
在6月22日華為舉辦的一年一度HDC 2024大會上,圖拉古分享了《視頻聲效大模型催生空間智能》的主題演講。作為在國內首個推出AI感知視聽大模型的創始人,此次他分享的AI大模型發展路徑備受關注,因為——
我們對AI“智能”的定義,變了!
當AI進化出類人“大腦”,走入“聯級神經元”框架
盡管2016年時,人工智能已經在世界圍棋方面下贏了人類,但我們仍然要說,AI的智能訓練還在早期,尤其是在對世界的感知能力方面幾乎為零。
人們能夠看到色彩斑斕的蝴蝶、遙遠的天空,或是聽到夏夜的蛙叫蟲鳴,看到起伏的麥浪就知道風正在吹過……這一切,其實對AI來說都毫無意義。
現在人們大談特談的人工智能,尤其是火爆資本圈的AI大模型,基本沒有脫離AIGC的范疇。
AI生成式內容,本質上來說還是對原有數據的打亂與再重組,然后訓練AI以人類習慣的結果呈現。
比如語言大模型,就是按照人的語言習慣進行對話;AI生成圖片,就是把物體A與物體B再組合,比如機器外觀的蜘蛛,或是戴帽子的狗等;AI生成視頻,同樣也是把原有視頻素材改頭換面出現。而現在這些,卻被看成了是AI的創意與智慧。
但這種AI創首先是不穩定、不可控的,其次很多場景和人物,是很難通過文字描述而準確生成的,即使加再多的提示詞,文字也難以代替畫面。例如,當你想要一段70年代的中國街景視頻時,就會因為缺乏基礎的視頻素材數據,而難以輸出你想要的結果。
所以,AI的這種創造力,不是真正的創造力,可以說是數據素材的積累與再組合。
圖拉古就是那個愛給AI產業潑冷水的“吹哨人”,他在很多公開場合曾提出過自己的質疑。在他看來,AI的時代一定會到來,而且進化的速度會超過人們的想象。但是,現在大多數湊熱鬧的AI通用大模型,會在5年后死掉90%。
此次HDC 2024大會上,他提出了一種他的的AI理論:AI感知視聽(人工智能視覺聽覺)技術和全新改進的moe框架,稱之為“聯級神經元”框架,正是模擬人類的大腦多區域總決策行為。
AI感知視聽就是要讓人工智能具有與人類相似的視覺、聽覺感受,再通過聯級神經元框架,像人的“大腦”中樞系統一樣,將這些AI能力聯接起來,實現對世界的記憶力、理解力、分析力。
圖拉古提出,moe最早是在 1991 年的論文中,那時候還是網絡使用的一種方式,而在 AI 時代,它應該是一種類腦框架,需要把每一個專業的垂直 AI 模型作為一個神經元看待,這就像大腦一樣,有負責語言的區域,有負責音樂的區域,有負責行動的區域,有負責平衡的區域,他們雖然都在一個頭顱內,可是各自卻是獨立的,靠生物電通訊。
圖拉古提出的AI新理論,實際上是把AI的各項能力“化整為零”,再形成統一的認知,這樣不僅能耗更低,而且可以訓練的更精細。比如實現計算機的視覺分析能力,就可以只通過一臺普通攝影機和普通的消費顯卡完成,而不再需要巨量的算力支撐。
圖拉古表示,不要試圖訓練一個AI大模型,讓它學會所有,就像家長不要奢望自己的孩子十項全能一樣,你既要求他懂微積分,又要求他會拉小提琴,還要他會琴棋書畫,精通武藝拳腳。
圖拉古和他的團隊已經在AI感知視聽大模型中證實了這一理論的可行性。天圖萬境已經擁有了全亞洲最大的電影級視聽數據集和分割數據集,并正在與華為相關部門合作進行 AI 模型的專業訓練。此次HDC 2024大會上,天圖萬境與華為云攜手推出了“視頻聲效大模型”解決方案,正在向這一全新設計的“聯級神經元”類腦框架的更前端展開探索。
從電影領域到AI模型,跨行業復合思維在這個新時代十分重要
圖拉古的AI技術探索之路,始于拍電影。他應該算是電影導演中最懂計算機的,計算機里最懂視聽語言的。
開始,他是在拍攝科幻電影時,發現為什么所有好的視聽制作的技術、設備,軟件、硬件都被國外廠商所壟斷,這激起了他自主研發的想法。
當蘋果掉到牛頓頭上時,很多歷史性的轉折時刻就這么發生了。
圖拉古和他的團隊開始是AI研發之路。例如AI圖像分割,這個模型最早就是應用在電影摳像里。但是直到今天,人們才知道,原來天圖萬境的AI智能實時摳綠,并不是真正的摳綠。他們的摳像技術實際上是在訓練AI 認識世界,讓機器知道畫面里的物體是什么,并理解在設定情景下什么物體應該保留或者去掉,甚至還可以執行其他特定的決策。
人類看到的世界是立體的,而數字世界中的圖像、視頻是平面的。當然,現在借助一些MR頭顯設備、AR設備,人們可以穿梭到立體世界中看到三維的視頻,但普通攝影機的拍攝還做不到這樣的效果。人們會用激光雷達來測量立體世界,或是用多目組成類人左右眼的形式,計算視差,獲得立體世界。
可是我們知道,人類閉上一只眼睛的時候,也可以準確的拿到面前的水杯,也可以知道自己距離物體的距離,甚至一些電影里還描繪了獨眼俠客的特異功能。人腦具有自己的經驗記憶推理能力,可以在單眼下獲得準確穩定的深度,而我們的機器正是需要這樣的能力。天圖萬境先后推出空間計算框架的多次升級的版本,實現了通過單目攝像頭實時獲取穩定的空間感知圖,實現了世界首個空間計算AI。
這些技術剛出現時,多數人還不能理解什么是空間計算,什么是AI感知,所以在過去的日子里,人們以為天圖萬境是一家電影技術公司。因為他們研發的AI感知視聽技術,最早應用在電影領域并取得了成功。但是,當AI技術逐漸走進大眾視野,天圖萬境的AI感知視聽大模型,才被更多人理解。原來,他們的摳綠不是摳綠,是在分割畫面;他們的還原不是還原,而是在計算空間;他們的音頻也不只是音頻,而是讓 AI理解世界。
圖拉古經常說自己是“帽子收集大師”,因為在人工智能領域的超前探索,讓他獲得了很多社會榮譽。但他最喜歡的,還是“科技工作者”這個頭銜。作為跨電影、光學、集成電路、計算機語言與圖形學等復合型專家,圖拉古不僅是“超級電影工業”發起者和開拓者,也是虛擬制作體系的引領者,更是開創AI視聽大模型先河的人。目前,該技術不僅在國內領先,在國際上也沒有相關理論和技術出現,圖拉古也成為了中國AI感知視聽領域的“大神級”人物。
圖拉古曾說過:“一個偉大的時代,在一種良性循環中,徐徐展開;人類、AI、機器和諧相處,互幫互助的美好愿景,正在向我們闊步走來”。 那么,就讓我們迎接這個美好的AI時代吧。
相關稿件