全球范圍內(nèi)大模型技術(shù)的競爭速度正日益加快。據(jù)媒體報道,馬斯克僅用 19 天便成功打造出全球最強的“超算工廠”!文章稱,這座“超算工廠”配備了多達 10 萬塊液冷 H100 GPU,已然成為全球規(guī)模最大的超算集群。此新聞一出,超算技術(shù)瞬間成為了眾人矚目的焦點。
為何馬斯克要構(gòu)建超算工廠以在 AI 賽道上展開角逐呢?原因在于,若要開發(fā)出能與現(xiàn)有領(lǐng)先大模型相抗衡的產(chǎn)品,就必須構(gòu)建足以支持大規(guī)模模型訓練的計算基礎(chǔ)設(shè)施。并且,超算在大模型訓練中所發(fā)揮的作用,絕非僅僅是提供強大的計算能力,還涵蓋了對訓練流程中各個環(huán)節(jié)的優(yōu)化,以此確保大模型能夠在有限的時間內(nèi)實現(xiàn)最佳性能。
我國專家也持有相似的看法。在近日舉行的 2024 中國算力發(fā)展專家研討會上,面對美國禁止銷售高端 GPU、終止大模型源代碼分享以及中斷生態(tài)合作等一系列問題,專家們表示,通過超算技術(shù)就能夠有效應(yīng)對。
此外,馬斯克用于大模型開發(fā)的超級計算機屬于 AI 專用超算。超級計算機分為通用超級計算機和專用超級計算機?為何馬斯克選擇的是專用超算呢?
專用超算成為解決特定問題的殺手锏
通用超算與專用超算的區(qū)別是,通用超算具備廣泛的適用性,能夠處理各種各樣的計算任務(wù),例如科學計算、數(shù)據(jù)分析、數(shù)值模擬等。它就像是一個多面手,可以應(yīng)對多種不同類型和規(guī)模的問題。而專用超算則是為特定應(yīng)用領(lǐng)域而生,其硬件和軟件配置都是為了滿足特定需求而設(shè)計,以便實現(xiàn)更高的性能和效率。
在大模型訓練的場景下,專用超算通過針對特定算法和數(shù)據(jù)結(jié)構(gòu)的硬件架構(gòu)和軟件優(yōu)化,減少了不必要的計算開銷,提高了計算資源的利用率。這種優(yōu)化不僅適用于大模型訓練本身,還包括了數(shù)據(jù)預處理、模型調(diào)試、性能調(diào)優(yōu)等多個環(huán)節(jié),從而實現(xiàn)了整個訓練流程的高效運行。
中國科學院計算技術(shù)研究所研究員張云泉曾指出,“當大模型需要1萬至10萬個GPU時,通過開發(fā)專用超級計算機克服高能耗、可靠性問題和并行處理限制是至關(guān)重要的”。
可見,專用超算是解決特定問題的殺手锏。
各行各業(yè)都在用“專用超算”搶占競爭優(yōu)勢
其實,除了大模型賽道的“AI超算”外,各行各業(yè)都在使用“專用超算”搶占競爭優(yōu)勢。
例如,除了構(gòu)建超算工廠外,馬斯克旗下公司特斯拉的Dojo就是一款專為大規(guī)模機器學習訓練而設(shè)計的專用超級計算機。這款超級計算機特別針對特斯拉自動駕駛技術(shù)的需求進行了優(yōu)化,能夠高效處理和訓練來自特斯拉車隊產(chǎn)生的大量視頻數(shù)據(jù)。Dojo的設(shè)計重點在于提高計算效率和降低能耗,通過高度定制化的硬件和軟件解決方案,能夠顯著減少訓練時間并提升模型的準確性。
DOJO超級計算機
還例如,安騰(Anton)超級計算機是特殊設(shè)計的、專門為生物分子動力學模擬研發(fā)的專用超級計算機,其計算效率比全球最強的通用超算高出數(shù)十倍。在美國AI制藥公司Relay Therapeutics的案例中,借助安騰超級計算機的幫助,該公司僅用了18個月、不到1億美元就確認了一款創(chuàng)新藥物的結(jié)構(gòu),打破了傳統(tǒng)的“雙十”禁錮——即通常情況下研發(fā)一款新藥需要花費10億美元、耗時10年。
美國安騰超級計算機
專用超算領(lǐng)域也需警惕“卡脖子”
隨著專用超算被越來越重視,我們也需要警惕可能出現(xiàn)的“卡脖子”現(xiàn)象。
眾所周知,英偉達H100 GPU的采購受到限制,這使得我們在Scale Law方面難以跟進。而在超算領(lǐng)域也有類似的趨勢。
目前,世界上僅有的幾臺安騰超級計算機分別安置在匹茲堡超算中心和位于紐約市的D. E. Shaw研究所中。超算安騰的上機時間根據(jù)提交給美國國家科學院獨立專家委員會的研究提案分配,只接受美國學術(shù)機構(gòu)的使用申請,嚴格禁止中國等其他國家使用。
據(jù)環(huán)球時報報道,“超算曾經(jīng)是中美之間科技合作交流很密切的領(lǐng)域,如今超算國際交流領(lǐng)域中也是雷區(qū)重重。2021年4月,美國商務(wù)部將7個中國超算實體列入所謂“實體清單”,聲稱其涉嫌“破壞軍事現(xiàn)代化的穩(wěn)定”。中國發(fā)展超算技術(shù)動輒被扣上“威脅美國國家安全”的帽子,并遭到無理的單邊制裁。全球超算TOP500排行榜每半年更新一次,中國、日本和美國超算都曾奪得“全球最快超算”的桂冠。但這兩年中國最領(lǐng)先的超算企業(yè)都不敢再參加TOP500的評選,原因是在該榜單上表現(xiàn)突出的企業(yè)有可能被美國列入黑名單、遭到更嚴厲制裁。”
可見,專用超算將是全球領(lǐng)域的“下一個風口”,而我國應(yīng)警惕美式霸權(quán)主義,需要積極研發(fā)具有自主知識產(chǎn)權(quán)的專用超算技術(shù)和產(chǎn)品,從而減少對國外技術(shù)的依賴。