近日,有幸參觀了中國(guó)移動(dòng)智算中心(哈爾濱)。該中心是全球運(yùn)營(yíng)商最大單集群智算中心,AI芯片國(guó)產(chǎn)化率100%,首次通過(guò)國(guó)產(chǎn)網(wǎng)絡(luò)設(shè)備探索1.8萬(wàn)張智算卡單集群部署規(guī)模上限,可提供6.9EFLOPS(每秒690億億次半精度浮點(diǎn)運(yùn)算)智能算力,融合分級(jí)存儲(chǔ)達(dá) 150P,創(chuàng)新應(yīng)用GSE1.0,天池SDN等多項(xiàng)中國(guó)移動(dòng)自主研發(fā)技術(shù)。
中國(guó)移動(dòng)智算中心(哈爾濱)曾用名#哈爾濱數(shù)據(jù)中心,中國(guó)移動(dòng)移動(dòng)的三大低成本數(shù)據(jù)中心(另外兩個(gè)在內(nèi)蒙古和貴州)。
哈爾濱數(shù)據(jù)中心抓住全球大模型高速增長(zhǎng)商機(jī),在當(dāng)?shù)卣⒓瘓F(tuán)公司及供應(yīng)鏈伙伴的支持下,基于“D-PDCA雙循環(huán)”管理機(jī)制,歷時(shí)兩個(gè)100天,完成3千多平米高功耗機(jī)房重大調(diào)整改造,千萬(wàn)級(jí)精密器件復(fù)雜施工;在30多個(gè)單位,千余人的協(xié)同作戰(zhàn)下,提前4個(gè)月,建成全球運(yùn)營(yíng)商最大單集群智算中心,充分展現(xiàn)了龍江速度。
第一個(gè)“一個(gè)100天”,完成機(jī)房的電源、空調(diào)、電氣、建筑結(jié)構(gòu)的擴(kuò)容及智能化改造。業(yè)內(nèi)首次挑戰(zhàn)46KW高功耗風(fēng)冷,創(chuàng)新引入大型集裝箱式“10KV中壓直供設(shè)備”新型供電模式,通過(guò)規(guī)、建、監(jiān)、施協(xié)同作戰(zhàn),優(yōu)化創(chuàng)新方案、專業(yè)強(qiáng)化管理等措施,實(shí)現(xiàn)430可裝機(jī),530全加電,620優(yōu)交付,工期壓縮40%。
第二個(gè)“一個(gè)100天”,實(shí)現(xiàn)智算集群全量設(shè)備點(diǎn)亮。面對(duì)大規(guī)模集群施工在技術(shù)領(lǐng)先性、首創(chuàng)性和復(fù)雜性的交付挑戰(zhàn),通過(guò)“早啟動(dòng)、定標(biāo)準(zhǔn)、造工具、融工序、勇創(chuàng)新、強(qiáng)投入”六大舉措,筑牢集群質(zhì)量,實(shí)現(xiàn)610可調(diào)測(cè),730全點(diǎn)亮,830全交付,提前4個(gè)月投產(chǎn)。
中國(guó)移動(dòng)智算中心(哈爾濱)支持萬(wàn)卡并行訓(xùn)練,智能斷點(diǎn)續(xù)訓(xùn),AI任務(wù)生命周期管理,分鐘級(jí)故障定界、定位。目前,中國(guó)移動(dòng)九天千億參數(shù)模型已在集群上實(shí)現(xiàn)高效、長(zhǎng)期穩(wěn)定訓(xùn)練。
中國(guó)移動(dòng)智算中心(哈爾濱)通過(guò)科學(xué)管理、精細(xì)化設(shè)計(jì)和高工藝實(shí)施,完成集群穩(wěn)定性、算力效率、海量數(shù)據(jù)和高可用性挑戰(zhàn),打造具備極致算力、極限組網(wǎng)、極效存儲(chǔ)、極速運(yùn)維的智算“超級(jí)工廠”,釋放算力集群優(yōu)勢(shì),為萬(wàn)億模型訓(xùn)練提供強(qiáng)大的算力底座。
極致算力,AI芯片國(guó)產(chǎn)化率100%,首次通過(guò)國(guó)產(chǎn)網(wǎng)絡(luò)設(shè)備探索1.8萬(wàn)張智算卡單集群部署規(guī)模上限,算力達(dá)到 6.9EFLOPS(每秒 690 億億次半精度浮點(diǎn)運(yùn)算),通過(guò)單一集群強(qiáng)大算力有效支撐大型AI模型訓(xùn)練,并通過(guò)網(wǎng)絡(luò)精細(xì)化設(shè)計(jì)、軟硬件全棧整合優(yōu)化,實(shí)現(xiàn)集群算力效率的近線性提升,確保萬(wàn)卡集群最大化釋放算力,滿足萬(wàn)億參數(shù)大模型訓(xùn)練要求。
極限組網(wǎng),采用國(guó)產(chǎn)46KW 風(fēng)冷網(wǎng)絡(luò)設(shè)備、構(gòu)建最大規(guī)模兩級(jí)組網(wǎng)。高性能、高功耗國(guó)產(chǎn)網(wǎng)絡(luò)設(shè)備首次端口滿負(fù)荷配置,達(dá)到網(wǎng)絡(luò)設(shè)備能力上限,采用高速、低延時(shí)、無(wú)阻塞兩級(jí)組網(wǎng),保證數(shù)據(jù)的高效通信。創(chuàng)新應(yīng)用中國(guó)移動(dòng)自研的天池SDN,提供網(wǎng)絡(luò)功能自服務(wù)能力;創(chuàng)新引入中國(guó)移動(dòng)自主知識(shí)產(chǎn)權(quán)、首個(gè)非美標(biāo)智算組網(wǎng)GSE技術(shù)。
極效存儲(chǔ),面對(duì)萬(wàn)億模型PB級(jí)訓(xùn)練數(shù)據(jù)集的多協(xié)議處理,采用大規(guī)模融合分級(jí)存儲(chǔ),通過(guò)訓(xùn)練數(shù)據(jù)智能分級(jí)和統(tǒng)一管理,實(shí)現(xiàn)數(shù)據(jù)高效共享和處理,滿足大模型訓(xùn)練時(shí)海量、多樣數(shù)據(jù)的高效處理和高吞吐要求。
極速運(yùn)維,建立SLA標(biāo)準(zhǔn)服務(wù)支撐體系,提供矩陣式維護(hù)服務(wù);部署一體化智能管控工具,對(duì)AI訓(xùn)練任務(wù)進(jìn)行全生命周期管理,實(shí)現(xiàn)小時(shí)級(jí)智能斷點(diǎn)續(xù)訓(xùn)、分鐘級(jí)故障定界定位;建立Class8級(jí)機(jī)房環(huán)境標(biāo)準(zhǔn),降低千萬(wàn)精密器件故障率。通過(guò)制度、技術(shù)和標(biāo)準(zhǔn)三大措施,保障萬(wàn)張AI加速卡長(zhǎng)時(shí)間穩(wěn)定并行訓(xùn)練,為萬(wàn)億模型訓(xùn)練提供高性能、高可用、高可靠的算力底座。
“該集群高效靈活的智算云服務(wù)能力,將為萬(wàn)億級(jí)大模型提供高效、穩(wěn)定、安全可控的算力底座,推動(dòng)國(guó)內(nèi)人工智能產(chǎn)業(yè)健康發(fā)展。”中國(guó)移動(dòng)黑龍江公司政企事業(yè)部經(jīng)理郅剛說(shuō)。