人工智能產業的蓬勃發展推動算力規模快速增長、算力結構不斷優化,多元化算力發展趨勢日益凸顯。近日,紫光股份旗下新華三集團在以“×AI”(乘AI)為主題的2024媒體與分析師溝通會上,重磅發布智算網絡解決方案,將充分發揮“算力×聯接”的倍增效應,以標準化聯接支撐多元算力釋放。新華三將通過對算力和聯接技術進行最佳的調優與配合,打造一張全面滿足異構算力需求的開放性網絡,為智算中心不同規模的算力聯接提供最優選擇。
多元算力成主流 開放網絡價值凸顯
AI大模型的火熱帶動各類專用算力芯片需求激增,智能算力占比逐步提升,多元異構計算體系成為主流模式。在實際場景中,算力體系已形成龐大的生態系統,涉及大量計算單元內部的信息交互,網絡不僅是連接算力單元的紐帶,更決定了算力調度、數據流通的效率與穩定性。對此,新華三集團認為,解決CPU、GPU、網卡、光模塊等異構組件間的互聯問題,打造開放解耦、靈活擴展的網絡聯接,是構建多元融合智算體系的關鍵所在。通過將網絡平臺和智算平臺解耦,可以充分發揮算力生態中各領域的優勢,實現資源共享和高效協作,幫助客戶享有先進的AI智算平臺、優秀的網絡設備和高品質的聯接介質。此外,用戶可利用以太網開放標準特質,逐步構建大規模智算集群,實現與現有設施的無縫互通,并根據業務需求靈活擴展升級。
智算網絡解決方案 探索打通異構算力的開放網絡
為滿足更加嚴苛的智算需求,新華三集團探索全新智算網絡解決方案,以靈活多樣的組網方式、以及全場景網絡調優技術滿足不同場景、不同規模的智算中心網絡建設需求,全面增強網絡對于多元異構算力的承載能力。
●業界最全產品布局支持全模型組網:智算網絡建設重視開放性、可部署性和擴展性,要求產品形態多樣且支持開放協議。新華三擁有支持200G/400G/800G不同端口密度且形態豐富的交換機產品,支持單框單層、盒-盒兩層、框-盒兩層等多種靈活組網架構,提供了開放性、兼容性、擴展性、穩定性極強的網絡環境和端到端異構互聯保障。
●全局負載均衡帶來極致帶寬利用率:傳統負載均衡技術難以適應AIGC集群訓練中通信流量擁塞敏感性高、低時延、高吞吐等需求,易導致負載分擔不均、整網吞吐下降等問題,影響訓練效率。新華三提出SprayLink端網融合、LBN&DLB、FGLB全局負載均衡、分布式解耦機框DDC架構等在內的負載均衡技術組合,可提高網絡帶寬利用率至95%,實現全場景智算網絡調優。
●數據面自愈技術實現微秒級故障收斂:網絡設備通常是轉控分離的,在發生故障時,通過控制面進行表項刷新、路徑重算后下發到數據面,實現故障收斂。而這種處理方式所消耗的時間,在智算場景下影響巨大。針對智算場景中遠端鏈路負載和故障檢測以及流量實時調整需求,新華三推出DPSH數據面自愈技術,支持本地或遠端鏈路Down后的流量快速切換,整個流量切換周期從毫秒級降低至微秒級,用戶側對鏈路故障無感知。
為AI算力場景而生 算力集群交換機提升智算網絡整體可用性
為進一步提升智算網絡整體可用性,新華三集團同步推出基于DDC架構(Disaggregated Distributed Chassis分布式解耦機框)的算力集群核心交換機H3C S12500 AI系列,旨在為用戶提供更具擴展性、更易運維管理、更具成本效益的分布式解耦機框方案。
作為專為AI算力場景設計的產品,H3C S12500 AI系列具備信元級負載均衡、原生無損、超大規模的優勢。其基于信元交換實現GPU解耦,對任意流量模型均能達到最佳負載均衡效果,確保100%無損傳輸,且最大可支持32K(400G)GPU卡,擺脫了傳統框式設備端口容量上限。依托強大的生態解耦能力和優秀的算力網絡性能,H3C S12500 AI系列可為用戶構建天然零丟包的無損網絡,提供自動化部署以及NCF與NCP的自組網能力,新增網元上線即可用,并且在網元失效時實現微秒級的拓撲收斂速度,是異構GPU互聯的最佳選擇。
此外,在異構算力網絡的構建過程中,新華三將持續推進服務器內、外部GPU聯接的標準化,實現異構GPU的智算集群,降低算力部署和應用的成本,并通過軟件生態的標準化,打通智算孤島,促進資源共享與產業共同繁榮。
網絡是數字經濟的載體,算力是數字經濟的引擎,網絡與算力的相互協同,將更好的推動數字經濟蓬勃發展。面向AIGC時代的算力需求與挑戰,新華三集團將秉持“精耕務實,為時代賦智慧”的理念,全力打造超高帶寬、超低時延、超高可靠的高品質智算網絡,為百行百業的數智發展注入強勁動能。
相關稿件