美國人工智能公司OpenAI發布的ChatGPT以其高效信息獲取、海量數據調用、超強優化學習能力火速出圈。ChatGPT不僅是人工智能技術的應用端普及,更是憑借完善的邏輯歸納能力、有監督的持續改進調優以及連續對話的交互體驗開啟了通用人工智能(AGI)的一扇窗,不僅僅在內容生產、便捷交互和簡化工作等消費端的應用快速普及,并向工業設計、藥物研發、材料科學等領域快速擴散。
而隨著集度、吉利、紅旗等汽車企業紛紛宣布支持汽車機器人自然交流,以人工智能為技術驅動的自動駕駛,將成為新能源汽車發展的重要方向。本文就近期ChatGPT此類預訓練大模型人工智能技術的突破,將對自動駕駛領域帶來哪些變革進行探討。
ChatGPT能夠給自動駕駛帶來語音交互提升,成為提升智能座艙語音交互質量的重要工具
ChatGPT是以其令人驚艷的“對話聊天”能力出圈的,對比市面上現有的機械式的車載智能語音交互模式,ChatGPT依托海量參數的預訓練大模型實現了降維打擊。當前車載智能語音交互主要有識別、理解和執行三大重點,而在目前提供的解決方案中,語音識別部分已經能夠達到90%以上,堵點難點主要聚焦于“理解”部分。
由于機器不具備語義理解能力,用戶只能通過觸摸屏與部分語音相結合的方式,按照指定命令與汽車進行交互,功能的復雜性和關鍵詞的多少成正相關,整個系統機械化運行、功能單一。據相關機構調研,2022年1-8月,語音交互功能在智能座艙的滲透率達到73.3%,但用戶對智能語音交互感興趣程度僅為42.9%。
所以,ChatGPT作為自然語言處理技術功能強大,ChatGPT能夠在溝通中結合用戶提出的問題不斷做出精準的、連續的回應,一方面通過對模型在車內對話場景的專項定制,可以在車載運行環境中取得優異的識別效果;另一方面模型的學習能力和上下文結合能力,可以讓ChatGPT實現連續對話交互。這種語義理解能力應用在車機交互上,最直觀的變革就是語音交互更加直接,更符合人類思考的習慣,會更加接近于人與人之間的交流,交互效率直線提升,大幅提升用戶體驗。
生成式AI為自動駕駛模型訓練提供高質量合成數據,破解自動駕駛數據和測試難題
ChatGPT屬于生成式AI在自然語言對話場景中的應用,而AIGC(人工智能生產內容)能夠靈活運用于寫作、繪圖、語音、視頻等不同維度的創作領域,結合自動駕駛模型訓練的數據需求,AIGC能夠生成任何人類想象到的駕駛場景。
自動駕駛需要通過真實世界的數據來訓練、測試和驗證模型算法的安全性和準確性,其過程需要大量數據支持和復雜的駕駛環境,甚至涵蓋許多極端環境的“邊緣案例”,某種意義上說需要數百年的真實駕駛才能收集構建真正安全的自動駕駛汽車所需的所有數據,并且真實世界的圖像數據必須先手動標記,然后才能用于訓練AI模型。谷歌(Waymo)已經投入了數十億美元,并花費了十多年的時間來收集數百萬英里的真實駕駛數據,并將其作為其自動駕駛技術堆棧的護城河。
相較而言,合成數據無論從成本還是場景方面都有著無可比擬的優勢,因此第一批出現的合成數據初創公司也主要瞄準了自動駕駛汽車終端市場,幫助自動駕駛企業解決其在自動駕駛系統開發過程中所面臨的數據和測試難題。
隨著AIGC技術持續創新發展,基于AIGC算法模型創建、生成合成數據迎來重大進展,有望解決自動駕駛發展應用過程中的數據限制。一是通過合成數據來改善基準測試數據的質量來實現數據增強和數據模擬,解決數據匱乏、數據質量等問題;二是利用合成數據訓練AI模型可以有效避免用戶隱私問題;三是合成數據可以自動創建、生成現實世界中難以或者無法采集的數據場景,能有效應對長尾、邊緣案例,提高模型算法的準確性、可靠性;四是合成數據技術可以實現更廉價、高效地批量生產自動駕駛模型訓練開發所需的海量數據,畢竟人工標注一張圖片可能需要6美元,但人工合成的話只需要6美分。
大模型技術路線啟發自動駕駛底層算法躍遷升級
ChatGPT作為一個語言模型主要用于生成自然語言文本,如對話、文章等,而自動駕駛算法需要處理的是感知、決策和控制等方面的問題,看似二者并沒有太大的關聯,但是從技術邏輯上,ChatGPT能夠給自動駕駛算法技術路線發展帶來兩大啟發。
第一點,是大模型的突現能力,即參數規模超過一個閾值后,模型的“思維鏈”能力突然就涌現出來,這就是所謂大模型的“突現能力,通俗講就是量變引起質變,大模型就意味著大參數、大數據,當然伴隨的也是大成本和大投入。ChatGPT的破圈給人工智能業界帶來的突破性認知和范式轉變是突現能力只存在于大型模型中,而不是小型模型。各種測試表明,只有模型達到175B的規模才有可能形成“突現能力”,模型能夠展示類似人類的復雜推理和知識推理能力——思維鏈,基于“思維鏈”的推理能力能夠在提問時附加給出提示,模型就能自動學習并做出相應推理得到正確結果。這對于自動駕駛“躍進式”和“漸進式”兩大路線的選擇無疑會產生深遠影響。
第二點,是人類反饋的強化學習(RLHF),簡單理解就是應用人類處理問題的方式去訓練算法。從2020版本的GPT-3到2022版本的ChatGPT,在控制參數量和訓練數據不變的情況下對比監督學習指令微調和RLHF,能夠發現在RLHF的參與下,模型的回答更加詳實、公正,并且能夠拒絕不當和知識范圍以外的問題。將這類模式映射到自動駕駛的算法模型中就是應用人類司機正確的駕駛數據來訓練算法,駕駛員針對自動駕駛算法的接管視為決策糾正,同時也是正向反饋的強化學習。ChatGPT的成功則證明應用RLHF是可以訓練出模型來驗證、評價機器模型的輸出,使其不斷進步,最終達到人類的駕駛水平,在自動駕駛業內毫末通過該方式,在掉頭、環島等公認的困難場景,通過率提升30%以上。
一句話,以ChatGPT為代表的內容生成式AI在自動駕駛領域還處于探索階段,目前看在智能座艙語音、自動駕駛模型訓練等方面具備應用,隨著科技領域、產業領域、資本領域的持續介入,預訓練大模型“思維”能力更強,在自動駕駛領域的應用將進一步拓寬,我團隊將持續關注。
相關稿件