&

大語言模型微調數據競賽，天翼云斬獲冠軍！: 2023-12-19 11:30 來源：中國企業網次閱讀; 分享：

　　近日，天池FT-Data Ranker競賽落下帷幕，天翼云智能邊緣事業部AI團隊（后稱天翼云AI團隊）憑借在大語言模型（LLM）訓練數據增強方面的卓越研究，榮獲大語言模型微調數據競賽——7B模型賽道冠軍。

　　FT-Data Ranker競賽是一場面向大語言模型研究、以數據為中心的競賽，吸引了包括來自北京大學、Hantec等知名高校、研究機構、企業的近400支優秀隊伍參賽。天翼云在激烈的角逐中脫穎而出，展現出強大的技術創新能力。

　　數據在大語言模型（LLM）的能力打造中發揮著至關重要的作用，更好地構建和處理數據集成為大語言模型領域研究的重點。本次競賽的核心在于獨立、精確地評估和提升數據集質量，加速形成基準驅動的數據開發流程，增強大語言模型數據處理能力，提高該領域對數據質量和數據優化的理解能力。本次競賽特別關注微調（Fine-tuning）階段的數據，要求參賽者對原始數據集進行清洗、過濾和增強，利用新數據集對特定模型進行微調，并在測試集上進行性能排名。
　　面向競賽通用選擇任務，天翼云AI團隊自主構建了數據處理流程，使用多個文檔去重、字符串過濾算子對低質的大規模原始語料進行處理，從而獲得高質量的模型訓練數據；同時，面向文本摘要任務，天翼云AI團隊創新地采用范式遷移（Paradigm Transfer）和模型能力蒸餾（Distillation）的方法，在設定模型隨機性為0的前提下，利用生成式模型將原始語料中的問答進行數據處理和遷移，作為摘要數據，間接擴充訓練數據。基于以上方法和策略，團隊在原始語料基礎上構建了一個內容豐富、多樣化的任務訓練集，幫助模型更好地學習和理解競賽任務。該方案的創新性和實用性得到了評委的高度認可。
　　本次競賽團隊采用的大語言模型訓練數據增強技術，已在天翼云團隊模型研發和生產業務中廣泛應用。例如，在天翼云政務大模型“慧澤”的研發中，通過廣泛采用訓練數據增強策略和算法來提升模型的各項能力，使得“慧澤“具備了政務知識全面、意圖理解能力強、應用廣泛以及安全可靠等優勢，可高效賦能政策咨詢、政務導辦、12345坐席輔助、智能辦公等場景，助力提升城市治理水平。
　　未來，天翼云將繼續推進人工智能相關技術創新以及實踐應用，以更加全面、智能的產品與服務，賦能千行百業數字化轉型。

點贊()

上一條：共創未來共享成功——深圳市道商五福科技發展有限公司第一屆股東大會圓滿召開2023-12-19

下一條：思特奇：共建數字經濟基礎設施和生態，驅動城市數字經濟高質量發展2023-12-19

相關稿件: 厚“技”薄發！天翼云平臺勇奪世界第一！ 2023-04-23; 小米大模型：不搞軍備競賽 2023-11-09; “天翼云開放實驗室”揭牌與合作伙伴共創數字未來 2023-04-25; 第六屆數字中國建設峰會召開天翼云“息壤”獲評“十大硬核科技” 2023-05-06; 天翼云中國行•甘肅站收官，開辟甘肅數字經濟發展新局面 2023-05-11

大語言模型微調數據競賽，天翼云斬獲冠軍！