首頁|必讀|視頻|專訪|運營|制造|監(jiān)管|大數(shù)據(jù)|物聯(lián)網(wǎng)|量子|低空經(jīng)濟|智能汽車|特約記者
手機|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計算|芯片|報告|智慧城市|移動互聯(lián)網(wǎng)|會展
首頁 >> 人工智能 >> 正文

算力強基,運力先行:以DC-OXC和DC-OTN筑牢智算網(wǎng)絡根基

2025年2月25日 17:03  CCTIME飛象網(wǎng)  

飛象網(wǎng)訊 (計育青/文)工業(yè)和信息化部近日印發(fā)通知,為夯實算力網(wǎng)絡發(fā)展底座,加快創(chuàng)新技術和產(chǎn)品應用,決定正式開展算力強基揭榜行動(簡稱“揭榜行動”)。此次揭榜行動面向算力網(wǎng)絡的計算、存儲、網(wǎng)絡、應用、綠色、安全等六大重點方向提出了二十一項任務,基本上涵蓋了算力全產(chǎn)業(yè)鏈的關鍵技術及發(fā)展方向,并對每一個項目都做了詳細的任務、目標說明。

 

(來源:工信部官網(wǎng))

在網(wǎng)絡環(huán)節(jié),揭榜行動重點支持高性能數(shù)據(jù)處理器(DPU)、基于RoCE的智算網(wǎng)絡、光交換智算網(wǎng)絡技術研究與驗證、面向分布式智算中心的網(wǎng)絡關鍵技術研究與驗證等。預期目標上揭榜行動要求到2026年,實現(xiàn)支持智算集群的易操作、高可靠、可平滑過渡升級的光網(wǎng)絡,支持人工智能等關鍵業(yè)務承載;光交換設備單端口速率支持100GE/400GE/800GE,交換容量彈性可擴展等。同時,突破智算中心間超大容量、超高可靠網(wǎng)絡傳輸關鍵技術,研制面向智算中心間網(wǎng)絡的傳輸設備,支撐分布式智算中心間業(yè)務的高可靠傳輸。

(來源:工信部官網(wǎng))

算力建設熱潮涌動,網(wǎng)絡需適度超前

近年來全球人工智能技術發(fā)展迅猛,各國都非常重視基礎大模型、AI應用的開發(fā)與建設,視之為決定產(chǎn)業(yè)經(jīng)濟升級、國家競爭力提升的關鍵因素。中國也非常重視AI技術及其應用的發(fā)展,先后發(fā)布了一系列政策予以推動和鼓勵,使得國內(nèi)大模型技術和應用始終位居全球領先地位。從千億、萬億參數(shù)基礎大模型的開發(fā),到面向具體行業(yè)、實際場景的AI應用孵化,都產(chǎn)生了巨大的智能算力需求,極大推動了國內(nèi)智算基礎設施的建設。據(jù)統(tǒng)計,當前國內(nèi)已投用了近百個智算中心,可用算力已接近萬PFlops。

而DeepSeek突飛猛進的發(fā)展,使其成為全球現(xiàn)象級大模型,從科技、醫(yī)藥、傳媒到政務、金融、汽車等,DeepSeek的“圈子”仍在持續(xù)擴張中。微信等頭部APP接入DeepSeek后可以看到,國民級應用模型使用持續(xù)放大算力需求,進而帶來推理等算力需求的大量增長,智算行業(yè)迎來重要發(fā)展機遇。

國內(nèi)通信運營商也在不斷加大對智算基礎設施的投入。比如中國電信正在打造多層次智算格局,在京津冀、長三角地區(qū)建設了兩個萬卡智算集群,同時還在西部地區(qū)打造大規(guī)模綠色智算池;中國移動的動作也很快,已建成8.2EFLOPS通用算力、19.6EFLOPS智算能力,分布在京津冀、長三角、粵港澳大灣區(qū)、成渝等區(qū)域的首批13個智算中心節(jié)點已經(jīng)投用;中國聯(lián)通規(guī)劃的算力中心體系覆蓋了國家8大樞紐節(jié)點和31個省市,數(shù)據(jù)中心機架的總體規(guī)模將超過40萬架,未來將建成骨干云池城市230多個、MEC節(jié)點超過600個。

隨著智算基礎設施的規(guī)模建設和大范圍應用,傳統(tǒng)的網(wǎng)絡架構和設備漸漸難以滿足要求,包括端口密度、功耗、靈活擴展能力、故障冗余能力,以及帶寬、時延、可靠性等等,都迫切需要針對智算集群進行深度創(chuàng)新,這也是此次揭榜行動中任務十、任務十一的主要目標。針對這些問題,通信行業(yè)已經(jīng)有充分的技術和產(chǎn)品儲備,并且在部分場景下進行了實踐驗證。

全光交換OXC技術破解智算集群平滑演進難題

當前智算集群網(wǎng)絡主要采用純電層交換機組網(wǎng)模式,算卡與算卡之間通過交換機來連接。一般數(shù)據(jù)中心采用這種組網(wǎng)模式不會遇到什么問題,但是智算訓練不一樣,隨著大模型不斷改進和更新,對算卡的需求會從幾千、幾萬個迅速走向數(shù)十萬、上百萬個,每次智算規(guī)模增加都需要對數(shù)據(jù)中心網(wǎng)絡進行重構,成本高且周期長。

另一方面,集群規(guī)模的不斷增加會引入更多的框式交換機,這些交換機會進一步加重智算中心的能耗負擔。隨著算卡的增加,連接算卡所需的光模塊也會更多,這些光模塊一旦發(fā)生故障就會影響到整個數(shù)據(jù)中心的數(shù)據(jù)處理和傳輸能力,進而直接影響到AI大模型訓練的連續(xù)性和準確性。

最后,算卡也會更新?lián)Q代,每次升級都會大幅提升其數(shù)據(jù)吞吐能力,這意味著數(shù)據(jù)中心內(nèi)部的交換機也必須隨之升級,隨之而來的是復雜的布線變更、網(wǎng)絡配置調整,對數(shù)據(jù)中心的規(guī)劃和運維而言是一個巨大的挑戰(zhàn)。

全球智算產(chǎn)業(yè)一直在尋求更好的網(wǎng)絡解決方案,目前來看,全光交叉OXC被認為極具潛力的替代方案。OXC是一種非常靈活的全光交換調度方式,采用集成式互連構建全光交換資源池,具有集成度高、無跳纖全光交換等特點,不僅易擴展、可靠性高、能耗低,日常運維也非常簡便。

目前全球主要通信廠商已經(jīng)推出了面向數(shù)據(jù)中心的商用OXC設備(DC-OXC),并且在一些先進智算企業(yè)中投入了應用。比如打造了Gemini多模態(tài)大模型的谷歌,已經(jīng)在自有的數(shù)據(jù)中心中采用了上萬套OXC設備。英偉達首席科學家Bill Dally也多次向業(yè)界建議在智算中心建設中采用OXC技術,認為這項技術可以有效提升網(wǎng)絡的可管理性和靈活性。在2024年9月舉行的深圳國際光電博覽會期間,多個大模型廠商表示準備引入OXC技術。

行業(yè)研究機構LightCounting認為,在智算產(chǎn)業(yè)的拉動作用下,未來5年OXC設備市場會以28%的增速快速擴張。而2024年9月開放數(shù)據(jù)中心委員會(ODCC)發(fā)布《AI網(wǎng)絡光交換機技術報告》,對光交換機在 AI 訓練等大規(guī)模計算中的應用進行了詳細探討,通過對胖樹網(wǎng)絡架構和 OXC靈活組網(wǎng)的Ring All-Reduce 性能的對比測試, 結果表明在通信數(shù)據(jù)量大于4MB后,應用OXC組網(wǎng)會有明顯收益,提升了20-34%左右的性能,All to All 性能提升30%左右。

面向DC互聯(lián)的全光傳送網(wǎng)(DC-OTN)輕松打造分布式智算中心

為充分利用不同地域的資源優(yōu)勢,兼顧就近服務客戶,很多企業(yè)會在不同區(qū)域分散配置智算中心。然而當客戶需要調用超越單個智算中心的算力時,如何實現(xiàn)海量數(shù)據(jù)在多個智算中心之間的實時傳送和調度就成了一個難題。對此國內(nèi)電信運營商做過大量探索,面向數(shù)據(jù)中心間互聯(lián)的全光傳送網(wǎng)(DC-OTN)被認為是當前理想的解決方案。

中國電信在2024年曾做過基于現(xiàn)網(wǎng)的業(yè)內(nèi)首例500公里的長距離DC-OTN技術驗證,利用江西永豐、北京大興、天津武清三地數(shù)據(jù)中心的千卡智算集群,完成了1024卡千億參數(shù)大模型的分布式聯(lián)合訓練,成功將練性能提升至單數(shù)據(jù)中心效能的97%以上。這次試驗表明,利用高速全光傳送網(wǎng)打造廣域智算網(wǎng)絡,完全可以將不同區(qū)域的智算資源匯聚成一個智算集群,實現(xiàn)跨地域、跨層級、跨主體的高效算力協(xié)同調度。

中國移動在2024年末也完成了百公里級DC-OTN現(xiàn)網(wǎng)試驗,采用800G OTN連接位于不同城市的兩個智算集群,共同承擔百億級參數(shù)規(guī)模的大型基礎語言模型,性能達到單節(jié)點訓練效率的98%以上。

中國聯(lián)通在2024年也發(fā)布了《基于RDMA的長距無損數(shù)據(jù)搬移技術白皮書》,提出的數(shù)據(jù)搬移解決方案,通過DC間全光直達的組網(wǎng)架構、長距RDMA提速、端網(wǎng)協(xié)同和統(tǒng)一編排等技術,解決海量數(shù)據(jù)長距傳輸時易擁塞、效率低的問題,為算力時代下海量數(shù)據(jù)高速遷移提供了技術支撐。

單體為繁星點點,為一般用戶提供就近服務;集合成群體,可為超大規(guī)模計算需求提供充足的智算資源。上述試驗證明了DC-OTN的可行性和有效性,也為分布式智算集群的演進指明了前進方向,做好了技術方案儲備。

如今人工智能正在向各行各業(yè)快速滲透,這是一場勢不可擋的產(chǎn)業(yè)革命,因此市場對智算基礎設施的需求只會越來越多。數(shù)據(jù)中心全光交換技術(DC-OXC)和面向DC互聯(lián)的全光傳送網(wǎng)(DC-OTN)技術可以大幅度提升智算集群部署的靈活性,改善智算中心的性能、可擴展性、可靠性、能耗表現(xiàn)等,有望成為智算產(chǎn)業(yè)的主流網(wǎng)絡解決方案,助力算力強基行動取得豐碩成果,推動算力網(wǎng)絡“點、鏈、網(wǎng)、面”體系化發(fā)展。

編 輯:霏雯
飛象網(wǎng)版權及免責聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權所有,未經(jīng)允許禁止轉載、摘編及鏡像,違者必究。對于經(jīng)過授權可以轉載,請必須保持轉載文章、圖像、音視頻的完整性,并完整標注作者信息和飛象網(wǎng)來源。
2.凡注明“來源:XXXX”的作品,均轉載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點和對其真實性負責。
3.如因作品內(nèi)容、版權和其它問題,請在相關作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進行的“內(nèi)容核實”、“商務聯(lián)系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權。
相關新聞              
 
人物
vivo胡柏山:手機行業(yè)是最典型的新質生產(chǎn)力代表
精彩專題
低空經(jīng)濟2025:助力中國經(jīng)濟騰飛,成就高質量發(fā)展
2024通信業(yè)年終盤點
2024數(shù)字科技生態(tài)大會
2024年度中國光電纜優(yōu)質供應商評選活動
CCTIME推薦
關于我們 | 廣告報價 | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號-1  電信與信息服務業(yè)務經(jīng)營許可證080234號 京公網(wǎng)安備110105000771號
公司名稱: 北京飛象互動文化傳媒有限公司
未經(jīng)書面許可,禁止轉載、摘編、復制、鏡像