隨著超大規模人工智能模型和海量數據的爆發,人工智能對算力的需求也隨之不斷走高。根據IDC發布的《2022-2023中國人工智能計算力發展評估報告》顯示,中國人工智能計算力保持快速增長,2022年智能算力規模達到268百億億次/秒(EFLOPS),超過通用算力規模。
作為云服務國家隊,天翼云積極推進算力普惠發展,已形成“2+4+31+X”資源布局,構建了“集中化+區域化+屬地化+邊緣化”的云網基礎設施,為人工智能夯實“算力底座”,助力AI快速完成數據訓練,提高計算與模擬的精準性。
為了適應市場智能算力快速增長的速度,天翼云聚焦人工智能場景創新,推出天翼云智算平臺,以普惠智能算力為基礎,支持大模型訓練、智能推薦、無人駕駛、生命科學、NLP等業務場景。
天翼云智算平臺依托天翼云分布式架構的云底座和海量的計算、存儲、網絡資源,具有高性能、高彈性、高速互聯、高性價比等特性,能夠滿足企業不斷增長的高性能算力使用需求。
日前,天翼云智算平臺通過中國信息通信研究院《可信算力服務平臺技術能力要求第3部分:智算平臺》評估,成為業內首批通過該項評估的云服務商。
具體來看,天翼云智算平臺主要有以下四個方面的差異化優勢:
高性能底座支撐能力:天翼云智算平臺基于天翼云TeleCloudOS4.0云網底座,覆蓋全場景算力需求;打造國產化能力體系,適配國產主流GPU芯片以及各種國產服務器,適配自研云服務器操作系統CTyunOS;集成彈性計算、分布式存儲、云網絡三大基礎核心技術,軟硬協同硬件加速,提供全量IaaS產品服務。
GPU虛擬化能力:天翼云智算平臺支持主流MediatedPassthrough(vGPU)、直通透傳等虛擬化技術;支持軟硬件層面的容器虛擬化技術,軟件方面支持API劫持及其他算力和顯存靈活分配能力,硬件方面支持MIG、vNPU等特性,從物理資源層面分配單卡資源。
高效的調度能力:資源調度方面,天翼云智算平臺實現對GPU、NPU、CPU等異構算力資源的混合調度,訓練、推理任務統一調度,實現了異構算力和異構任務的統一調度;任務調度方面,提供基于任務優先級、任務SLA、資源獨占式調度、共享式調度、搶占式調度,靈活支持各類差異化的用戶需求。
分布式訓練能力:天翼云智算平臺提供分布式訓練一站式解決方案,融合GPU拓撲感知、親和調度、高IO并行文件系統等底層技術,支持多種模型訓練方式,兼容主流AI框架,擴展定制業界主流分布式訓練方案,提升訓練數據量,縮短模型交付周期;提供定制化算法框架,采用代碼生成等方式,內置提供豐富的算子,簡化數據集導入、特征工程處理、預訓練模型依賴等步驟,提升AI訓練開發效率;針對大模型分布式環境下的訓練,顯存優化方面使用ZeRo等技術,打破顯存與內存的隔閡,降低訓練的顯存開銷。
隨著國內新一波人工智能浪潮襲來以及AI規模化落地應用,具備“更高、更快、更強”能力的智能計算基礎設施平臺被人工智能行業所青睞。天翼云智算平臺適用于城市治理、AI質檢、搜索推薦、自動駕駛、金融、科學研究等領域,可提供人工智能應用所需算力服務、數據服務和算法服務,通過算力的生產、聚合、調度和釋放,促進AI產業聚集發展。
天翼云智算平臺不僅提供算力,還對云能力做“組件化”封裝進行輸出,能迅速支撐業務上線,提升技術創新能力,加速科技研發進程。此外,智算平臺的推廣與應用將產生聯動效應,帶動通信服務網絡、大數據、人工智能等技術快速迭代,有助于我國科技創新提速。
在人工智能按下“快進鍵”的背景下,天翼云不斷完善智算基礎設施,打造創新性的產品,深度賦能人工智能領域企業跑出“加速度”,并通過多點發力布局走在智算領域的前列,AI應用也將在科技創新的助力下進一步加速“走深向實”,全面推動AI產業高質量發展。
相關稿件