飛象網(wǎng)訊(易歡)在今天“2024年云網(wǎng)智聯(lián)大會”上,中國電信科技委主任韋樂平分享了為未來大模型跨群跨域跨云面臨挑戰(zhàn)的思考與建議。
韋樂平指出,由于單站資源受限,未來可能需要在園區(qū)、AZ乃至更大范圍內(nèi)由多個物理集群構成一個超級邏輯集群進行聯(lián)合訓練才能支撐超大模型的訓練。推理本身與具體業(yè)務場景相關,更可能需要跨域跨云實施。
“挑戰(zhàn)也隨著而來,其中,距離增大導致時延變大,高頻次通信的效率將降低,導致網(wǎng)絡吞吐量降低,影響GPU利用率。此外,故障概率也將增大!
對此,韋樂平也給出了應對策略,解決不同集群間參數(shù)的傳遞和同步以及大量數(shù)據(jù)跨群跨域跨云傳輸?shù)牟煌瑫r延導致的訓練速度減慢的問題。一是訓練任務被拆分到不同集群上實行并行訓練,根據(jù)不同的訓練任務和場景,采用數(shù)據(jù)并行、流水線并行、張量并行等多種不同策略。二是采用空芯光纖從物理層上直接降低數(shù)據(jù)傳遞時延(降33%)。
與此同時,韋樂平強調(diào),單站單園區(qū)集中訓練是首選,跨群跨域跨云的訓練依然充滿挑戰(zhàn)!