算力作為數(shù)字經(jīng)濟(jì)的堅(jiān)實(shí)基礎(chǔ),備受各方關(guān)注。從我國(guó)東南沿海到西北內(nèi)陸,從工業(yè)生產(chǎn)到百姓生活,算力正為各行各業(yè)的數(shù)字化注入新動(dòng)能,成為經(jīng)濟(jì)社會(huì)高質(zhì)量發(fā)展的重要驅(qū)動(dòng)力。自《新型數(shù)據(jù)中心發(fā)展三年行動(dòng)計(jì)劃(2021—2023年)》的發(fā)布實(shí)施,到生成式人工智能(Artificial Intelligence,AI)大模型掀起AI應(yīng)用熱潮,再到《算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展行動(dòng)計(jì)劃》的發(fā)布,都將進(jìn)一步推動(dòng)我國(guó)算力產(chǎn)業(yè)的高質(zhì)量發(fā)展。研究算力發(fā)展實(shí)際情況,分析算力發(fā)展現(xiàn)存問題,是制定未來算力發(fā)展策略的關(guān)鍵舉措。本文立足當(dāng)前我國(guó)算力發(fā)展現(xiàn)狀,客觀分析我國(guó)算力產(chǎn)業(yè)發(fā)展現(xiàn)存挑戰(zhàn),為推進(jìn)我國(guó)網(wǎng)絡(luò)強(qiáng)國(guó)新征程提供發(fā)展建議。
1 我國(guó)算力發(fā)展現(xiàn)狀
1.1 算力規(guī)模增長(zhǎng)迅猛
近年來,我國(guó)數(shù)據(jù)中心在用標(biāo)準(zhǔn)機(jī)架數(shù)量年復(fù)合增長(zhǎng)率超過30%,截至2023年6月,我國(guó)在用數(shù)據(jù)中心機(jī)架總規(guī)模超過760萬標(biāo)準(zhǔn)機(jī)架,算力總規(guī)模達(dá)到197 EFLOPS,存力總規(guī)模達(dá)到1 080 EB,年增速達(dá)到25%。算力設(shè)施內(nèi)、算力設(shè)施間、用戶入算等網(wǎng)絡(luò)創(chuàng)新發(fā)展,有力支撐AI、云—邊—端協(xié)同、“東數(shù)西算”等應(yīng)用場(chǎng)景。
1.2 布局結(jié)構(gòu)日益優(yōu)化
“東數(shù)西算”實(shí)施后,我國(guó)西部樞紐算力設(shè)施建設(shè)加快,國(guó)家樞紐節(jié)點(diǎn)—省內(nèi)—邊緣協(xié)同發(fā)展的算力梯次布局體系初步形成,算力結(jié)構(gòu)也逐步從早期通用占主體演變?yōu)橥ㄓ谩撬恪銋f(xié)同發(fā)展的格局。隨著AI應(yīng)用的快速興起,智算中心建設(shè)步伐加快,截至2023年6月,全國(guó)已投運(yùn)的AI計(jì)算中心達(dá)到25 個(gè),在建的AI計(jì)算中心超過20 個(gè),智能算力規(guī)模占整體算力規(guī)模的比例已提高到25.4%。
1.3 算力技術(shù)創(chuàng)新活躍
我國(guó)計(jì)算機(jī)領(lǐng)域發(fā)明申請(qǐng)數(shù)量劇增,算力、存力、運(yùn)力領(lǐng)域創(chuàng)新成果不斷涌現(xiàn)?萍脊炯铀賵D形處理器(Graphics Processing Unit,GPU)等AI芯片研發(fā),國(guó)內(nèi)相關(guān)企業(yè)紛紛推出自研產(chǎn)品;“星河”AI網(wǎng)絡(luò)、先進(jìn)存儲(chǔ)、液冷技術(shù)等很好地支撐了當(dāng)前的智算需求。我國(guó)在計(jì)算、網(wǎng)絡(luò)和存儲(chǔ)方面都取得了很大進(jìn)展。
1.4 算力賦能產(chǎn)業(yè)發(fā)展
隨著我國(guó)算力規(guī)模的持續(xù)擴(kuò)大,互聯(lián)網(wǎng)、大數(shù)據(jù)、AI等與實(shí)體經(jīng)濟(jì)融合發(fā)展的新業(yè)態(tài)、新模式正加速涌現(xiàn),算力正加速?gòu)幕ヂ?lián)網(wǎng)、電子政務(wù)等領(lǐng)域向服務(wù)、金融、制造、交通、醫(yī)療等行業(yè)滲透,成為傳統(tǒng)產(chǎn)業(yè)智能化改造和數(shù)字化轉(zhuǎn)型的重要支點(diǎn)。與此同時(shí),算力應(yīng)用也逐漸向城市治理、智能零售、智能調(diào)度等領(lǐng)域延伸,激發(fā)數(shù)據(jù)要素新活力,助力數(shù)字經(jīng)濟(jì)高速發(fā)展。
2 算力發(fā)展面臨的挑戰(zhàn)
2.1 算力協(xié)同仍需穩(wěn)步推進(jìn)
“東數(shù)西算”工程助力我國(guó)算力發(fā)展踏上新臺(tái)階,但就目前實(shí)施效果來看,距離我國(guó)東西部算力協(xié)同均衡發(fā)展仍有差距。首先,我國(guó)東西部之間商業(yè)模式協(xié)調(diào)機(jī)制仍需持續(xù)完善。我國(guó)東西部算力協(xié)作發(fā)展不僅需要依靠自身努力,也需要一定的商業(yè)模式來激勵(lì),我國(guó)西部能源供應(yīng)價(jià)格優(yōu)勢(shì)與東部產(chǎn)業(yè)西遷成本收益之間的平衡需要一定的協(xié)調(diào)機(jī)制來保障。其次,樞紐節(jié)點(diǎn)算力結(jié)構(gòu)需要持續(xù)優(yōu)化。雖然目前我國(guó)已在大力推動(dòng)智算中心建設(shè),但大模型的訓(xùn)練迭代對(duì)智能算力需求的拉動(dòng)遠(yuǎn)超預(yù)期,當(dāng)前樞紐通用算力與智能算力的供需比例仍有一定差距。最后,同質(zhì)化競(jìng)爭(zhēng)帶來的市場(chǎng)壓力需要調(diào)解。由于同質(zhì)化競(jìng)爭(zhēng),部分地區(qū)價(jià)格戰(zhàn)加劇,導(dǎo)致原本的成本定價(jià)被轉(zhuǎn)變?yōu)槭袌?chǎng)定價(jià),對(duì)數(shù)據(jù)中心相關(guān)企業(yè)發(fā)展帶來一定壓力。
2.2 算力生態(tài)仍需持續(xù)完善
近年來,我國(guó)不斷鞏固算力基礎(chǔ)設(shè)施,培育算力產(chǎn)業(yè)優(yōu)質(zhì)企業(yè),推進(jìn)算力賦能經(jīng)濟(jì)發(fā)展,健全算力產(chǎn)業(yè)生態(tài),但目前發(fā)展仍需進(jìn)一步提升,算力生態(tài)建設(shè)仍需持續(xù)完善。我國(guó)部分地區(qū)數(shù)據(jù)中心的實(shí)際運(yùn)行業(yè)務(wù)效果與算力設(shè)計(jì)規(guī)模構(gòu)想存在一定差距,以“筑巢引鳳”的方式實(shí)現(xiàn)“新舊”動(dòng)能轉(zhuǎn)換的期待尚未實(shí)現(xiàn),亟待推動(dòng)從企業(yè)個(gè)體的位置空間聚集到有機(jī)融合的產(chǎn)業(yè)鏈條聚集,從而促進(jìn)算力上、下游產(chǎn)業(yè)及應(yīng)用生態(tài)市場(chǎng)協(xié)同發(fā)展。
算力拉動(dòng)經(jīng)濟(jì)增長(zhǎng)的潛力仍有較大挖掘空間。算力產(chǎn)業(yè)發(fā)展與當(dāng)?shù)刭Y源稟賦結(jié)合不夠緊密的現(xiàn)象仍然存在,導(dǎo)致算力產(chǎn)業(yè)未能深入賦能當(dāng)?shù)貙?shí)體經(jīng)濟(jì)發(fā)展,算力產(chǎn)業(yè)發(fā)展帶來的技術(shù)創(chuàng)新和成果尚未充分轉(zhuǎn)化為當(dāng)?shù)財(cái)?shù)字經(jīng)濟(jì)的增長(zhǎng)動(dòng)力等問題,仍需持續(xù)開展算力應(yīng)用賦能的舉措、深挖算力賦能經(jīng)濟(jì)增長(zhǎng)的潛力空間,將算力真正融入當(dāng)?shù)貙?shí)體產(chǎn)業(yè),充分轉(zhuǎn)化為當(dāng)?shù)亟?jīng)濟(jì)發(fā)展動(dòng)能。
2.3 算力創(chuàng)新仍需全面提升
大模型等技術(shù)的迅速發(fā)展為算力產(chǎn)業(yè)發(fā)展帶來了新挑戰(zhàn),目前我國(guó)算力核心技術(shù)創(chuàng)新力度不夠,技術(shù)方面仍存在相對(duì)短板。在綠色低碳方面,我國(guó)現(xiàn)有先進(jìn)數(shù)據(jù)中心電能利用效率最低已達(dá)1.05以下,達(dá)世界先進(jìn)水平,但源網(wǎng)荷儲(chǔ)一體化供電系統(tǒng)等低碳發(fā)展重要技術(shù)推廣仍然受限,源荷對(duì)接存在一定困難。
在算力調(diào)度方面,部分省市已上線調(diào)度平臺(tái);中國(guó)算力平臺(tái)持續(xù)完善算力監(jiān)測(cè)、匹配和調(diào)度等方面的能力,部署節(jié)奏加快,但算力調(diào)度的商業(yè)模式和技術(shù)細(xì)節(jié)仍需進(jìn)一步探討。在高端芯片和軟件研發(fā)方面,我國(guó)自主創(chuàng)新能力仍需加強(qiáng),對(duì)進(jìn)口產(chǎn)品和技術(shù)仍有一定依賴,關(guān)鍵技術(shù)的“卡脖子”風(fēng)險(xiǎn)依然存在,難以支撐大模型、元宇宙等高性能場(chǎng)景建設(shè)。此外,國(guó)產(chǎn)數(shù)據(jù)庫(kù)、中間件、操作系統(tǒng)等基礎(chǔ)軟件適配性、兼容性不足,對(duì)主流軟件應(yīng)用環(huán)境構(gòu)建的支撐能力偏弱。
2.4 算力應(yīng)用仍需深化拓展
當(dāng)前,我國(guó)算力應(yīng)用行業(yè)持續(xù)多元化拓展,為產(chǎn)業(yè)注入發(fā)展新動(dòng)能,但算力應(yīng)用深度仍需推進(jìn),算力供給與行業(yè)應(yīng)用之間的銜接仍需加強(qiáng)。一方面,我國(guó)算力提供商缺少一體化解決方案,技術(shù)到落地過程仍存在一定障礙。算力技術(shù)與行業(yè)場(chǎng)景結(jié)合過程中需要較強(qiáng)的行業(yè)經(jīng)驗(yàn),而目前我國(guó)算力企業(yè)與人才在細(xì)分領(lǐng)域的儲(chǔ)備尚不足支撐現(xiàn)有項(xiàng)目的長(zhǎng)期深耕和成果應(yīng)用轉(zhuǎn)化。另一方面,傳統(tǒng)企業(yè)缺乏對(duì)算力增益效用的認(rèn)知與實(shí)踐。傳統(tǒng)企業(yè)的數(shù)字化轉(zhuǎn)型日益加速,但現(xiàn)有的算力應(yīng)用相對(duì)較淺,在頂層規(guī)劃、轉(zhuǎn)型方法、項(xiàng)目落地等思維方式和實(shí)踐部署方面仍需進(jìn)一步強(qiáng)化。
2.5 算力安全仍需加強(qiáng)保障
隨著算力向生產(chǎn)生活各個(gè)領(lǐng)域的滲透逐漸深入,算網(wǎng)融合持續(xù)推進(jìn),算力作為轉(zhuǎn)換數(shù)據(jù)價(jià)值的生產(chǎn)要素,安全保障至關(guān)重要,系統(tǒng)安全影響需重視。隨著虛擬化技術(shù)的發(fā)展,算力應(yīng)用對(duì)各種服務(wù)組件的依賴加大,而底層服務(wù)組件往往支撐著大量業(yè)務(wù),一旦發(fā)生故障,諸多產(chǎn)品將受到影響,引發(fā)行業(yè)震動(dòng)。
集群安全防護(hù)亟需增強(qiáng)。算力產(chǎn)業(yè)不斷集聚發(fā)展,集群部署讓算力資源更為集中,攻擊目標(biāo)更為明顯,網(wǎng)絡(luò)供給與威脅升級(jí),影響后果更為嚴(yán)重,在傳統(tǒng)設(shè)備級(jí)、系統(tǒng)級(jí)、算力中心級(jí)的安全防護(hù)基礎(chǔ)上,亟需構(gòu)建集群安全防護(hù)體系,增強(qiáng)防護(hù)能力。不穩(wěn)定的水電供應(yīng),或者對(duì)傳輸線路和設(shè)施的物理破壞都會(huì)導(dǎo)致算力集群的宕機(jī)。
3 算力互聯(lián)面臨的挑戰(zhàn)
3.1 產(chǎn)業(yè)需求無場(chǎng)景大模型訓(xùn)練需要大規(guī)模的集群算力處理。隨著數(shù)據(jù)并行和模型并行技術(shù)的不斷完善和提升,分布式訓(xùn)練中可以使用千卡或萬卡規(guī)模的GPU來縮短整體訓(xùn)練時(shí)長(zhǎng)。數(shù)據(jù)顯示,GPT-4的參數(shù)規(guī)模為1.8 萬億個(gè),訓(xùn)練GPT-4約為2.15e25 FLOPS,在大約2.5 萬個(gè)A100上訓(xùn)練了90~100天,利用率僅在32%~36%之間。
2023年,購(gòu)入超過2萬張GPU卡的國(guó)內(nèi)公司僅騰訊、百度、阿里巴巴和字節(jié)跳動(dòng)4家[5]。為充分發(fā)揮算力算效,這些企業(yè)均自建了大規(guī)模智算集群,為業(yè)內(nèi)提供算力相關(guān)的服務(wù)。在正常發(fā)展情況下,未來大模型需要的計(jì)算能力相對(duì)于目前只增不減。大規(guī)模集群算力處理大模型、小規(guī)模算力處理小模型將成為業(yè)界常態(tài)。
3.2 技術(shù)瓶頸難突破
大模型并行計(jì)算模式采用分布式計(jì)算能力來處理大量的訓(xùn)練任務(wù)。由于帶寬和時(shí)延的限制,并不是把幾個(gè)小規(guī)模的集群遠(yuǎn)程連起來就能處理大模型。
在完成自身的計(jì)算任務(wù)后,節(jié)點(diǎn)需要將結(jié)果快速地同步給其他節(jié)點(diǎn),以便進(jìn)行下一輪計(jì)算;在此之前,計(jì)算任務(wù)處于等待狀態(tài)。目前,每塊GPU至少會(huì)配置100 Gbit/s的網(wǎng)卡,且?guī)捳加幂^滿;如果帶寬不夠,會(huì)造成網(wǎng)卡間通信時(shí)間變長(zhǎng),影響加速比和訓(xùn)練效果。算力中心存在大量東西向流量,思科全球云指數(shù)統(tǒng)計(jì),數(shù)據(jù)中心內(nèi)部之間的流量占比為71.49%,隨著智算的爆發(fā),比例會(huì)更高。通常每機(jī)架配置百兆帶寬,但如果要實(shí)現(xiàn)所謂的GPU遠(yuǎn)程互聯(lián),理論上單機(jī)架兩臺(tái)GPU服務(wù)器就需要1.6 Tbit/s的帶寬,換算成智算中心的出口帶寬將是天文數(shù)字。
在時(shí)延方面,智算中心內(nèi)“一跳可達(dá)”的場(chǎng)景下,無限帶寬技術(shù)和基于以太網(wǎng)的遠(yuǎn)端直接內(nèi)存訪問技術(shù)均能支持應(yīng)用層的端到端時(shí)延微秒級(jí)。為了保證性能損失在5%以內(nèi),數(shù)據(jù)庫(kù)集群系統(tǒng)要求至少40 Gbit/s的吞吐和3 μs的網(wǎng)絡(luò)往返時(shí)延。目前,北京—呼和浩特的端到端時(shí)延為12 ms,是集群內(nèi)應(yīng)用層端到端時(shí)延的1 000 倍。這樣的網(wǎng)絡(luò)時(shí)延,對(duì)大模型訓(xùn)練、數(shù)據(jù)庫(kù)等應(yīng)用來說是不可接受的。
3.3 安全穩(wěn)定難保障由于計(jì)算量較大,分布式訓(xùn)練任務(wù)需要持續(xù)數(shù)天或數(shù)周。在訓(xùn)練期間如果出現(xiàn)故障,輕則任務(wù)回退到上一個(gè)斷點(diǎn)進(jìn)行重訓(xùn),重則整個(gè)任務(wù)將從0開始。分布式AI計(jì)算是同步的,并且希望訓(xùn)練任務(wù)具有可預(yù)測(cè)的完成時(shí)間。在智算網(wǎng)絡(luò)中,每千分之一的丟包將導(dǎo)致網(wǎng)絡(luò)性能下降50%[10]。在正常情況下,互聯(lián)網(wǎng)的丟包率在0%~1%,“盡力而為”的互聯(lián)網(wǎng)顯然不符合智算網(wǎng)絡(luò)的穩(wěn)定性需求。
4 我國(guó)算力發(fā)展建議
為進(jìn)一步推動(dòng)政策措施有效落地,增強(qiáng)算力應(yīng)用賦能實(shí)效,針對(duì)我國(guó)算力發(fā)展現(xiàn)存挑戰(zhàn),結(jié)合我國(guó)現(xiàn)階段算力產(chǎn)業(yè)發(fā)展基礎(chǔ),提出我國(guó)算力高質(zhì)量發(fā)展對(duì)策建議。
4.1 以市場(chǎng)為導(dǎo)向,政府引導(dǎo)應(yīng)用發(fā)展
加強(qiáng)算力發(fā)展的宏觀指引,明確產(chǎn)業(yè)發(fā)展方向。充分發(fā)揮市場(chǎng)作用,在北京、上海、深圳等應(yīng)用需求旺盛的地區(qū)及其周邊地區(qū)適度加大發(fā)展力度。強(qiáng)化工程的引領(lǐng)作用,通過創(chuàng)建算網(wǎng)城市、打造算力中心標(biāo)桿等方式形成示范效應(yīng),促進(jìn)各地算力設(shè)施的高質(zhì)量建設(shè)。
4.2 以協(xié)同為重點(diǎn),推動(dòng)全面一體發(fā)展
探索解決我國(guó)東西部的資源使用和利益分配問題,充分結(jié)合我國(guó)東西部自身優(yōu)勢(shì),創(chuàng)新合作模式與機(jī)制,鼓勵(lì)開展“以數(shù)換電”商業(yè)合作。推動(dòng)我國(guó)西部樞紐緊抓機(jī)遇,對(duì)算力全產(chǎn)業(yè)鏈進(jìn)行孵化,構(gòu)建“算力租賃+AI應(yīng)用”的生態(tài)體系,激活西部算力產(chǎn)業(yè)活力。鼓勵(lì)企業(yè)適度超前部署大規(guī)模智算算力,提高算力中心自主可控比例。
4.3 以突破為目標(biāo),重點(diǎn)攻關(guān)核心技術(shù)
圍繞算力發(fā)展需要,增強(qiáng)企業(yè)自主創(chuàng)新能力,持續(xù)推進(jìn)GPU等關(guān)鍵產(chǎn)品和技術(shù)的研發(fā)。推動(dòng)硬件、基礎(chǔ)軟件、應(yīng)用軟件等適配協(xié)同,進(jìn)行算力調(diào)度技術(shù)的應(yīng)用試驗(yàn),形成一批具有自主產(chǎn)權(quán)的完整解決方案。加強(qiáng)對(duì)外技術(shù)交流合作,加深算力產(chǎn)業(yè)鏈的溝通協(xié)作。
4.4 以應(yīng)用為牽引,推進(jìn)算力賦能產(chǎn)業(yè)
構(gòu)建多部門、多行業(yè)交叉合作機(jī)制,充分發(fā)揮算力對(duì)工業(yè)、農(nóng)業(yè)、交通、能源、金融和教育等行業(yè)的賦能價(jià)值。在項(xiàng)目引進(jìn)、企業(yè)扶持的過程中,培育算力龍頭企業(yè),協(xié)同帶動(dòng)算力上下游產(chǎn)業(yè)的發(fā)展,構(gòu)建完善的算力產(chǎn)業(yè)生態(tài)鏈。通過“華彩杯”算力大賽等形式,挖掘并培育優(yōu)質(zhì)算力應(yīng)用項(xiàng)目,推動(dòng)優(yōu)秀項(xiàng)目案例的復(fù)制推廣。
4.5 以安全為保障,筑牢產(chǎn)業(yè)安全防線
統(tǒng)籌建設(shè)集群級(jí)安全防護(hù)能力,適當(dāng)增加算力企業(yè)在安全方面的投入,解決好基礎(chǔ)性問題,打造安全可靠的算網(wǎng)能力。鼓勵(lì)算力中心進(jìn)行多點(diǎn)熱備,實(shí)現(xiàn)業(yè)務(wù)無縫切換。引導(dǎo)行業(yè)打造安全運(yùn)維體系,提高運(yùn)維人員應(yīng)對(duì)突發(fā)事件的應(yīng)急響應(yīng)水平。
5 結(jié)束語
《算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展行動(dòng)計(jì)劃》等國(guó)家政策文件的發(fā)布,以及GB/T 43331-2023《互聯(lián)網(wǎng)數(shù)據(jù)中心(IDC)技術(shù)和分級(jí)要求》等國(guó)家標(biāo)準(zhǔn)的實(shí)施,都將引領(lǐng)我國(guó)算力產(chǎn)業(yè)高質(zhì)量發(fā)展。我國(guó)產(chǎn)業(yè)界應(yīng)針對(duì)算力發(fā)展過程中遇到的問題不斷加強(qiáng)技術(shù)攻關(guān),將算力產(chǎn)業(yè)發(fā)展走深向?qū),持續(xù)增強(qiáng)我國(guó)算力基礎(chǔ)力量,助力我國(guó)早日實(shí)現(xiàn)網(wǎng)絡(luò)強(qiáng)國(guó)目標(biāo)。