在2024年7月舉辦的全球數字經濟大會上,北京超級云計算中心(以下簡稱"北京超算")展示了其在人工智能算力服務領域的最新成果與創新實踐。作為北京市首批算力伙伴,北京超算憑借十三年的豐富經驗和專業實力,正在為我國人工智能技術發展和數字經濟繁榮提供強有力的算力支撐。
人工智能已成為國家戰略,是推動科技創新、促進經濟增長、引領產業升級的重要力量。然而,隨著AI模型規模的急劇擴大,適用于超大規模訓練的算力資源供給不足已成為制約行業發展的瓶頸。北京超算運營實體北京北龍超級云計算有限責任公司CTO甄亞楠在接受采訪時表示:"目前做基座大模型的企業,對算力資源的總量要求非常高,動輒需要5000卡規模。能夠提供如此大規模空閑算力資源的中心在國內還是非常少的。"
北龍超云CTO甄亞楠論壇現場報告
面對這一挑戰,北京超算提出了"超智融合全景算力服務"的創新理念,致力于為客戶提供高質量、高性價比的超算架構大模型算力解決方案。其核心優勢主要體現在以下幾個方面:
一、豐富的算力資源池
北京超算擁有多種主流GPU卡,包括H800、A800、V100等,可支持多機多卡并行計算,滿足大模型訓練、推理等多種場景需求。其在寧夏中衛算力基地和規劃中的內蒙古和林格爾新基地可以為大模型研發機構提供充足的智算算力保障。
二、基于超算架構的高性能基礎設施
北京超算采用典型的超算架構打造大模型基礎設施,包括高性能的GPU訓練服務器、推理服務器以及大容量分布式存儲系統。其計算網絡采用3.2Tbps IB無收斂架構,存儲網絡帶寬達到400Gbps,可有效支撐大規模并行計算的需求。
三、智能化的資源調度與性能優化
北京超算開發的智能算力調度系統,可實現多集群算力的跨域智能分配。更重要的是,他們建立了基于應用運行特征分析的能力服務體系,通過對大規模并行應用進行實時"CT掃描",秒級監控CPU、GPU、內存、網絡等多維度指標,智能分析性能瓶頸,為用戶提供高性價比的算力選型及程序優化咨詢服務。
甄亞楠介紹了一個典型案例:"某14B參數的模型優化前GPU利用率只有75%,經過我們的計算負載優化后,GPU利用率提升到97%,整體性能提升了30%。"這種基于數據驅動的優化方法,可以幫助用戶更高效地提升算力資源利用率,從而降低成本。
四、全方位的技術支持服務
北京超算組建了專業的技術支持團隊,提供7*24小時在線服務,5分鐘響應。從環境搭建、程序優化到故障診斷,為用戶提供全流程的技術保障。正如甄亞楠所說:"我們希望AI工程師能夠將更多精力投入到科研本身,而不是被繁瑣的算力環境問題所困擾。"
五、靈活的使用模式與高性價比
北京超算 “高質量、高性價比算力服務體系”正式發布
北京超算采用"按需付費"的模式,用戶可以根據實際需求靈活選用算力資源,避免了自建集群的高額投入。在北京超算最新發布的容器云上,GPU卡時價格低至1.6元,用戶可以在云平臺上自建容器,極大降低了使用成本。甄亞楠表示:"我們希望通過高性價比的服務,讓更多中小企業也能夠參與到大模型的研發中來。“
正是憑借這些優勢,北京超算已經成功為多家知名AI企業和科研機構提供了大模型算力支持。例如,他們為某公司的千億級超大規模預訓練模型項目提供了基于A800 GPU的高性能算力資源,支持其進行長時間穩定的千卡規模訓練。在另一個案例中,北京超算幫助某語言智能科技公司將128卡訓練的性能提升了4倍,達到了線性加速的效果。
此外,北京超算還積極支持高校的大模型研究。他們為某雙一流高校提供了256塊A100 GPU的共享算力資源,并協助課題組完成環境搭建和模型遷移,有效解決了高校算力不足的問題。
在談到未來發展時,甄亞楠表示,北京超算將繼續加大在算力基礎設施方面的投入,同時也會加強在國產化方面的布局。"我們有專門的團隊在幫助用戶將模型遷移到國產芯片上。雖然目前在性能上還有差距,但我們相信通過產學研各方的共同努力,國產AI芯片的生態一定會不斷完善。"
值得一提的是,在本次數字經濟大會上,北京超算與北京中科聞歌科技股份有限公司合作的"雅意·智學大模型賦能教育領域應用實踐"獲評"2024人工智能大模型場景應用典型案例",展示了其在教育領域的創新應用實踐。
2024人工智能大模型場景應用典型案例證書
隨著大模型技術的快速發展,高質量、可負擔的算力服務將成為推動AI產業繁榮的關鍵因素。北京超級云計算中心以其深厚的技術積累和創新能力,正在為國產大模型的蓬勃發展貢獻重要力量。正如2024全球數字經濟大會所彰顯的那樣,數字經濟的浪潮方興未艾,在算力這一基礎設施領域,我們有理由對未來充滿期待。
相關稿件