飛象原創(chuàng)(魏德齡/文)翻看外語辭典,Credo在英語、意大利語和拉丁語中都有“Believe相信”的含義,在意大利語中也可以翻譯為“IBelieve”,在英語中則有著“信條”的含義。如今,擁有了神經(jīng)網(wǎng)絡(luò)的AI大腦憑借其思考的能力,正在讓很多人開始相信它的美麗未來,并讓它開始承擔起一些專業(yè)領(lǐng)域中的預見性工作。
在今年的光博會上,有這樣一家名為Credo的公司,憑借其多年以前對技術(shù)的長遠預見,為數(shù)據(jù)中心AI大腦“神經(jīng)系統(tǒng)”的升級帶來了可能。如果想要細探這一過程,需要先從如今AI大腦的飛速進化說起。
AI大腦的進化
相較于生物大腦在歲月長河中的緩慢成長,AI大模型的成長可謂是“大力出奇跡”,為了滿足計算要求,需構(gòu)筑專門用于人工智能的數(shù)據(jù)中心,并由GPU服務(wù)器聯(lián)網(wǎng)構(gòu)成。當大模型訓練時,并行計算節(jié)點越多,通信效率越重要,智算網(wǎng)絡(luò)的性能成為了集群算力提升的關(guān)鍵。智力增長需要更大的服務(wù)器集群,萬億參數(shù)的GPT-4背后是萬卡級規(guī)模作為保障。
隨著集群規(guī)模的增加,能耗問題也隨之凸顯起來。也就是說,如果把人腦與AI進行比較的話,人腦由1012個神經(jīng)元和1015實觸構(gòu)成極其復雜網(wǎng)絡(luò),能以很小樣本和30W功耗實現(xiàn)超高計算效率和識別,而大型AI系統(tǒng)則需百萬瓦級功耗和海量數(shù)據(jù)。
為了滿足更加密集的集群需求,數(shù)據(jù)中心的機架架構(gòu)也在發(fā)生著變化。在AI與AI訓練的需求下,現(xiàn)在每一個數(shù)據(jù)中心都擁有兩種網(wǎng)絡(luò)連接,一種是傳統(tǒng)的前端網(wǎng)絡(luò),還有一種是用于AI網(wǎng)絡(luò)連接的后端網(wǎng)絡(luò)。后端網(wǎng)絡(luò)將所有GPU連接在一起,形同一臺數(shù)據(jù)中心里的超大計算機,為了滿足GPU互聯(lián)的需求,后端網(wǎng)絡(luò)的帶寬也是前端網(wǎng)絡(luò)的8-10倍。
針對密集集群的散熱問題,傳統(tǒng)的風冷技術(shù)受限于功耗限制,每個機架只能放1—2臺服務(wù)器,顯然已經(jīng)不能滿足要求。液冷方案隨之流行起來。對應(yīng)也使單機架上能夠放置更多臺AI服務(wù)器,服務(wù)器之間的連接距離變得更短。
上述的這些變化,也對連接服務(wù)器之間的線纜提出了新的要求。
AEC讓思考不中斷
“我們在幾年前第一次介紹有源電纜(AEC)的時候,很多人都沒有意識到這是一個很有價值的產(chǎn)品。但在今天,AEC已經(jīng)改變了整個行業(yè)的規(guī)則!盋redo銷售副總裁楊學賢在談到公司對于技術(shù)的前瞻性能力的時候,使用了AEC的案例。
在如今一些全球領(lǐng)先廠商展示的基于銅纜的人工智能應(yīng)用中,以Credo為代表的色彩鮮明的紫色AEC線纜聯(lián)通起了機架上的每一臺服務(wù)器。AEC電纜展現(xiàn)出了在AI應(yīng)用中的獨特價值,在繼北美互聯(lián)網(wǎng)公司之后,也正在開始被國內(nèi)互聯(lián)網(wǎng)企業(yè)所關(guān)注。
在今年的光博會上,Credo專為中國超級數(shù)據(jù)中心市場量身打造,推出適用于400G Q112網(wǎng)絡(luò)接口的HiWire SHIFT AEC(有源電纜Active Electrical Cables)新系列產(chǎn)品,可以滿足AI/ML后端網(wǎng)絡(luò)與TOR交換機之間的網(wǎng)絡(luò)連接需求。
AEC在人工智能領(lǐng)域的認可與其自身的技術(shù)優(yōu)勢有關(guān)。根據(jù)實際測試數(shù)據(jù)反饋,在連接可靠性上,可比光纜高出一到兩個數(shù)量級。這就意味AEC電纜將可助力算力利用率的提升,當前利用率低的原因正在于互聯(lián),一旦一個節(jié)點發(fā)生故障或鏈路斷聯(lián),傳輸就要重新進行,導致算力利用率普遍僅為40%—50%。AI行業(yè)開始重新重視銅互聯(lián)與電互聯(lián)的原因正在于通過AEC對于連接可靠性的大幅提升,從而解決這一癥結(jié)。
此外,如前文所述的機架中服務(wù)器的密度增加,要求線纜具有更好的布線靈活度,也就是要易于彎折,才能不會過多遮擋機柜前面的氣流,對散熱造成影響。而AEC作為一根銅纜,沒有任何光學組件,僅每端都放置了一個基于Credo自有銅DSP技術(shù)的Retimer,來負責端到端的信號傳輸。于是,AEC在現(xiàn)有AI領(lǐng)域機房的布線中,不僅好部署,還擁有極長的生命周期。
AEC還具有低功耗上的優(yōu)勢,其中的DSP都是業(yè)界功耗最低的產(chǎn)品,一個400G的AEC的單端功率在5W左右,大約僅為一個400G光模塊的50%。
以本次發(fā)布的SHIFT AEC產(chǎn)品為例,基于Credo先進的800G HiWire AEC設(shè)計優(yōu)化而來,能效卓越,性能更佳,且具有極致的可靠性,MTBF(平均故障間隔時間)長達1億小時,該數(shù)據(jù)對于AI/ML應(yīng)用而言無疑至關(guān)重要。
AEC產(chǎn)品負責人Ameet Suri表示:“為了滿足中國超級數(shù)據(jù)中心市場客戶對Q112 TOR接口的需求,Credo拓展其800G HiWire AEC產(chǎn)品系列,推出包含三款Q112新品的HiWire SHIFT AEC新產(chǎn)品系列。HiWire AEC不斷受到超級數(shù)據(jù)中心運營商們的青睞,被用于NIC與TOR之間的連接。我們期待借助此次推出的AEC新品,進一步提升AEC解決方案在中國市場的滲透率。”
除了AEC產(chǎn)品外,關(guān)于Credo之于“相信”的技術(shù)前瞻性案例,LRO也同樣可以稱得上是一個典范。
LRO讓聰明不燒腦
隨著能耗問題在數(shù)據(jù)中心和AI基礎(chǔ)設(shè)施在規(guī)模擴張中問題的凸顯,尤其在一年前,伴隨著800G容量的增加,業(yè)界也開始關(guān)注收發(fā)器的功率問題。其中已有的LPO方案由于互操作性,依賴鏈路和故障排除能力等技術(shù)限制,大大限制了部署熱情。據(jù)Cignal預測,LPO方案在800GbE的市場份額將不會超過10%。
對此,Credo提出了線性接收光路(LRO)解決方案,僅將DSP保留在光收發(fā)器的發(fā)射端。其優(yōu)勢在于,僅在發(fā)端放置的DSP可以保證光纖上的擁有完美高質(zhì)量、符合標準的光信號,達到與完整DSP方案一樣的效果。此舉自然實現(xiàn)了節(jié)省功耗的目的,由于LRO方案移除了一半的DSP,因此可以節(jié)省一半的DSP功耗,且仍舊保持了非常好的網(wǎng)絡(luò)性能。
Credo Dove 850作為世界上第一款針對LRO應(yīng)用優(yōu)化的DSP產(chǎn)品,將800G光收發(fā)器的功耗控制在低于10W的水平,對比使用完整DSP的光收發(fā)器,可節(jié)省大約40%—50%的功耗。并且不會像LPO解決方案會犧牲網(wǎng)絡(luò)性能。
基于Dove850方案的光模塊通過提升符合IEEE標準的光發(fā)射信號質(zhì)量來解決線性可插拔光連接(LPO)方案的固有缺陷,并可避免手動調(diào)試每個端口以減輕客戶的系統(tǒng)運維負擔。對比結(jié)果就是,Dove850方案擁有更低誤碼率,增強了靈敏度,減少性能偏差,并提升了對交換ASIC、PCB走線、光器件及環(huán)境因素的包容度。
未來,Credo將會持續(xù)開發(fā)完整的DSP以及LRO解決方案,并計劃在DSP中集成一種特殊的診斷預警功能,來幫助客戶實時監(jiān)控電路工作狀態(tài)。
“相信,是一個漫長而痛苦的等待過程,也是一個技術(shù)不斷打磨、不斷優(yōu)化的過程。”楊學賢表示因為有了公司對于技術(shù)的相信與持續(xù)投入,才能造就這些有價值的、改變行業(yè)規(guī)則的產(chǎn)品。
如果說AI的高速發(fā)展,是人類集體大腦的一個全新進化,那么對于參與構(gòu)建這顆大腦中的神經(jīng)系統(tǒng)重要一環(huán)的Credo來說,或許不僅僅是讓這顆飛速成長的大腦思考不中斷、聰明不燒腦,也刻下了關(guān)于人類的“技術(shù)信條”烙印。