9月28日,由中國信息通信研究院主辦的2024中國算力大會·智算集成服務論壇在鄭州成功舉行。論壇邀請了產業(yè)內權威專家代表,圍繞“AI算力基礎設施建設、算力平臺服務”等議題,分享企業(yè)級人工智能應用實踐成果。中國移動集團網絡事業(yè)部處長蔡旭輝發(fā)表了題為《打造卓越智算運維新體系,推動AI規(guī)模應用》的主題演講。蔡旭輝表示,隨著人工智能技術的飛速發(fā)展,中國移動立足產品、服務、生態(tài),構建了全棧算智融合新體系。
“中國移動采用智算中心“N+X”架構體系。其中N節(jié)點是用來滿足全網跨區(qū)域、跨省和AI大模型訓練,以及區(qū)域內AI訓練、精調、并發(fā)業(yè)務的需求,X節(jié)點是面向邊緣產品和私有化產品的需求!辈绦褫x介紹到。中國移動在呼和浩特和哈爾濱建設了的超大規(guī)模智算中心節(jié)點,其中呼和浩特節(jié)點被評為央企十大超級工程。
中國移動集團網絡事業(yè)部處長蔡旭輝 發(fā)表主題演講
當前運營商業(yè)務已走進算力時代,區(qū)別于通用計算時代分層解耦的建設和運維模式,大規(guī)模的智算中心集群建設是極其復雜的系統(tǒng)工程。蔡旭輝列舉了智算中心組網中的多個痛點,如模型并行計算帶來的高頻訓練中斷問題、硬件定位業(yè)務恢復時間長、上下層全?梢曤y度大、跨組織協(xié)同響應難、多廠商設備聯(lián)合調優(yōu)難等挑戰(zhàn)。
針對這些挑戰(zhàn),中國移動網絡事業(yè)部秉持運維規(guī)范化、標準化和確定性的理念,構建了訓練中斷少、故障恢復快、服務支撐好的智算運營服務。包括重塑了智算運維質量文化,打造高可用架構方案,定義核心指標治理以及體系指標等,研發(fā)智能化的解決方案,進而提升運維效率。
在智算運維質量文化方面,高度重視AI智算運維人才的培養(yǎng)和培訓,聯(lián)合華為和合作伙伴構建了超過200人的專家團隊,建立了體系化的智算人才培養(yǎng)機制。同時,打通智算運維從客戶對接到故障處理的端到端系統(tǒng),并構建總部、省公司、專業(yè)公司及客戶的協(xié)同運維機制,實現數據層的可視,進而提升運維效率。
在智算架構方面,中國移動構建了構建端到端智算高可用架構,保障訓推任務全流程的穩(wěn)定性,并構建了AI任務全鏈路監(jiān)控保障體系,提供120多種軟硬件健康檢查,分鐘級集群故障定位定界,全方位助力智算集群管控調優(yōu)。
在運維指標方面,中國移動圍繞智算運維探索可靠性黃金指標,構建了80多個關鍵的指標體系。重點提升智算集群的模型算力運用率MFU,故障時長MTTR、長穩(wěn)訓練時長三個黃金指標,助力大模型訓練任務高效穩(wěn)定運行。同時,在運維服務方面,構建了中國移動算力運維平臺,打造自主領先的AI+算力運維服務,采用SRE運維模式,根據運維場景化需求構建AI+全景觀測、智算運維智能體等能力。目前該平臺已經納管通算智算設備近百萬臺,總體智算規(guī)模26.5億FLOPS,日均消息處理量是110億條,成為電信行業(yè)納管規(guī)模最大的算力運維平臺,支持中國移動智算中心的高效運維以及對客戶的服務。
蔡旭輝分享了中國移動與華為等合作伙伴在提升大規(guī)模智算集群運維關鍵指標方面的合作成果,并介紹在全球運營商最大的單體智算中心——呼和浩特智算中心應用的智能運維方案,實現全域資源實時監(jiān)控和故障快速定位。同時,中國移動還在智算中心網絡故障診斷方面與高校深度合作,打造基于智算網絡的AI全腦網絡診斷智能體,覆蓋故障監(jiān)測與處理、性能優(yōu)化、配置管理、流量分析與管理等場景,有效降低了智算網絡的運維工作量。
最后,蔡旭輝倡議中國移動愿攜手合作伙伴,共創(chuàng)中國智算產業(yè)繁榮生態(tài),共同探索智能運維實踐并分享創(chuàng)新成果,共同構建行業(yè)標準,合力攻堅共筑算力藍圖,加速推動AI大規(guī)模應用。