你方唱罷我登場。
過去一周,國產AI大模型賽道熱鬧非凡。先是阿里巴巴旗下超大規模語言模型“通義千問”開放內測,后有商湯科技、昆侖萬維放出自家打造的大模型成果。與此同時,科大訊飛、騰訊、360、字節跳動等也在“摩拳擦掌”,紛紛將發展人工智能列為未來企業的核心戰略……
國內科技企業圍繞AI大模型上演“百團大戰”背后,誰能憑硬實力拔得頭籌?這一新興技術,究竟是虛火過旺還是星辰大海?
南方日報記者?許雋?葉丹?郜小平
國產大模型“百舸爭流”
AI大模型,指的是擁有數百萬以上參數規模的深度神經網絡模型。這類模型在經過專門的訓練后,即可對海量數據進行復雜處理和任務處理。由海外科技公司OpenAI開發的ChatGPT之所以擁有強大的對話交互能力,背靠的正是名為“GPT”的AI預訓練模型。
今年以來,隨著ChatGPT爆紅“出圈”,“大模型熱潮”也從國外涌向了國內。
4月7日,阿里巴巴正式發布超大規模語言模型“通義千問”,并定向邀請用戶測試體驗。與百度于3月中旬上線的“文心一言”大模型工具類似,“通義千問”也具備與用戶進行多輪對話的能力,并支持代碼編程、文案創作等功能。
雖然沒趕上國內大模型產品的“首發”,但是“通義千問”卻可能是最早通過各個場景應用融入人們生活的一個。據阿里巴巴集團董事會主席兼CEO、阿里云智能集團CEO張勇透露,釘釘、天貓精靈將于不久后正式接入該模型,未來阿里巴巴全系產品都將用上。
4月9日,360宣布,將基于360GPT大模型開發人工智能產品矩陣“360智腦”,未來將其率先落地在“360搜索”場景,后續面向電商、營銷、辦公等場景深度落地。
4月10日,商湯科技公布“日日新SenseNova”大模型體系雛形,并現場演示了該模型體系下“商量SenseChat”語言工具的超長文本閱讀理解、健康咨詢等創新能力。同日,游戲起家的昆侖萬維也對外預告,不日將發布和奇點智源合作自研的大模型成果——“天工”3.5,并宣稱這是“中國第一個真正實現智能涌現的國產大語言模型”。
京東、科大訊飛、騰訊、字節跳動打造的大模型產品也有望在未來一個月集中亮相。
除此之外,由美團聯合創始人王慧文、創新工場創始人李開復、搜狗創始人王小川等企業高管領銜的“AI大模型創業軍團”,也對AI大模型風口“虎視眈眈”。
“當前AI大模型仍是新興技術,未來的競爭格局在一定程度上取決于各廠商的舉措、戰略方向與資本投資方向。”IDC中國助理研究總監盧言霞指出,目前AI大模型處于百花齊放的狀態,未來企業要想真正跑贏對手,不能僅靠“一頭熱”,而是需要培養自身在數據、場景、軟硬一體算力等方面的多重能力。
大廠上演AI“軍備競賽”
“每年5000萬到1億美元的花費,是千億級大模型訓練的入場券。”昆侖萬維CEO方漢指出,AI大模型高昂的訓練成本和研發投入,讓眾多入局者“望而生畏”。而據公開資料顯示,無論是百度、阿里巴巴買還是騰訊、華為每年在研發上投入的資金均在百億元規模,研發團隊人數破萬,且在技術研發上實力雄厚,是目前當之無愧的“第一梯隊”玩家。
以華為為例,身處“制裁常態化”壓力之下,2022年企業研發投入仍高達1615億元,占總營收的25.1%,現金流表現整體健康。在AI大模型相關的技術積累上,華為擁有芯片、算力、模型、算法等完善的生態鏈布局。早在2019至2020年間,公司內部就已啟動“盤古大模型”立項,該模型在預訓練階段累計學習了40TB大小的文本資料,參數規模達千億級別,目前在工業、制造、金融、醫藥等行業場景都已有成熟的應用案例。
百度在人工智能領域布局已有近10年時間,是國內少數在芯片層、框架層、模型層、應用層有全棧布局的科技企業。同樣早在2019年,公司就已打造文心大模型ERNIE?1.0。經過多輪迭代,目前模型已經升級到3.0版本。除在模型框架內的基礎訓練外,ERNIE3.0每天還要接收數十億用戶的搜索請求,這為“文心一言”積累了豐富的語料庫。
相較之下,阿里巴巴與騰訊在大模型方面雖然沒能搶占“頭啖湯”,但是基于原有業務、資源和技術的積累,他們卻是最有機會推動模型技術向C端用戶普及的兩家。在業內人士看來,深厚的算力積累和豐富的應用場景,都是阿里和騰訊的最大“法寶”。
以阿里巴巴為例,張勇曾經指出,大模型是一場“AI云計算”的全方位競爭。超萬億參數的大模型研發,并不僅僅涉及算法問題,更囊括了底層龐大算力、網絡、大數據、機器學習等諸多領域的復雜系統性工程,需要有超大規模AI基礎設施的支撐。而阿里云從2019年就開始投入大模型研發,算力優勢突出,是全球首個完成10萬億參數AI大模型訓練的企業。
騰訊方面雖然還沒有發布通用的AI大模型工具,但企業自身不乏在網絡、存儲、軟件優化、訓練框架和芯片等大模型技術上的積累,距離打造一款成熟產品只有“一步之遙”。
而從各自的特有優勢來看,百度擁有“搜索”這一核心流量入口,有利于第一時間搶占用戶心智;阿里、騰訊各自擁有釘釘、天貓精靈,微信/QQ等豐富的應用生態,能夠推動廣泛的場景落地;華為大模型成果在B端已有成熟落地,有望率先在垂直細分領域做出成績。
“直道沖鋒”任重而道遠
浙商證券指出,大模型越來越成為當下科技企業核心競爭力的重要體現。與“元宇宙”等概念不同,大模型有著相對清晰的商業模式和應用場景。目前,業內也已基本形成共識:大模型將成為AIGC(即AI生成內容的生產方式)時代的核心支撐。
“中國需要有自己的AI大模型,這是彰顯科技創新實力的需要,也是經濟和社會發展的需要。”互聯網分析師易方寒告訴南方日報記者,以語言大模型為代表的大模型,作為實現通用人工智能的關鍵路徑之一,將成為國內外科技企業競逐的主賽道。
然而,在推動國產AI大模型發展的過程中,人才儲備不足、算法和模型質量不高、算力存在短板等問題,仍然是擺在百度、阿里巴巴等科技企業面前的難題。
以算法和模型質量不高為例。經與ChatGPT對比,百度“文心一言”、阿里巴巴“通義千問”等模型在邏輯思辨、復雜數理計算上仍有不小的提升空間。此外,在中文語料庫方面,據深圳數據交易所董事長李紅光指出,我國還面臨數據分散,導致數據支撐不足的問題。
“數據分散在不同的地方,碎片化比較嚴重,也比較封閉,同時,沒有經過整理的數據,存在字段缺失、信息不準等問題,目前國內數據流通中存在供給不足的問題,尤其是高質量的數據供給不足,限制了國內AI大模型的發展。”李紅光分析,數據資源變成數據要素,關鍵點就是數據治理,原始數據經過治理升級后才會成為人工智能領域的支撐。這也正是數據交易所存在的價值——給國內AI大模型的發展提供數據“養分”。
能耗方面也有挑戰。在中興通訊執行副總裁、首席運營官謝峻石看來,大模型的高速發展,也意味著巨大的能耗——有數據顯示,ChatGPT的總算力消耗約為3640PF-days,需要7-8個投資規模30億元、算力500P的數據中心才能支撐運行。如何降低訓練大模型的成本和能耗?能否通過自研AI加速芯片降低推理成本?這同樣需要業界共同思考并解決。
此外,生成式AI也帶來了一系列隱患,包括國家安全、虛假內容、數據泄露、侵權風險、失業風險、濫用風險等。對此,西南政法大學數字法治政府研究院研究員鄭志峰認為,我國需要構建一套涵蓋研發、利用全過程、全要素的監管機制,劃清技術紅線,確保技術向善。
“中國認知智能大模型的發展不僅要‘彎道超車’,還需要‘直道沖鋒’。”科大訊飛副總裁、研究院院長劉聰指出,我國豐富的互聯網應用生態,為國產AI大模型的落地提供了肥沃的土壤。此外,在垂直類別或多模態的大模型領域,我國也存在“彎道超車”的機會。
盡管如此,要想對標目標并保持差距不斷縮小,我國仍然需要在芯片、高質量數據、系統迭代等方面“正面擊破”。“我們要正視差距,并且以最先進水平為目標奮起直追。”
相關稿件