像OpenAI的ChatGPT、谷歌(177.07, 1.94, 1.11%)的Gemini Ultra這樣的高級AI模型,訓(xùn)練它們通常需要數(shù)百萬美元的費用,且該成本還在迅速上升。
隨著計算需求的增加,訓(xùn)練它們所需的計算能力的費用也在飆升。為此,AI公司正在重新考慮如何訓(xùn)練這些生成式AI系統(tǒng)。在許多情況下,這些策略包括在當(dāng)前的增長軌跡下降低計算成本。
訓(xùn)練成本是如何確定的?
斯坦福大學(xué)與研究公司Epoch AI合作,根據(jù)云計算租金估算了AI模型的訓(xùn)練成本。雙方所分析的關(guān)鍵因素包括模型的訓(xùn)練時長、硬件的利用率和訓(xùn)練硬件的價值。
盡管許多人猜測,訓(xùn)練AI模型的成本變得越來越高,但缺乏全面的數(shù)據(jù)來支持這些說法。而斯坦福大學(xué)發(fā)布的《2024年AI指數(shù)報告》正是支持這些說法的罕見來源之一。
不斷膨脹的訓(xùn)練成本
去年,OpenAI的GPT-4培訓(xùn)成本估計為7840萬美元,遠(yuǎn)高于谷歌PaLM (540B) 的訓(xùn)練成本。谷歌PaLM較GPT-4僅早一年推出,但訓(xùn)練成本為1240萬美元。
相比之下,2017年開發(fā)的早期AI模型Transformer的訓(xùn)練成本為930美元。該模型在塑造當(dāng)前所使用的許多大型語言模型的體系結(jié)構(gòu)方面起著基礎(chǔ)性作用。
谷歌的AI模型Gemini Ultra的訓(xùn)練成更高,達(dá)到了驚人的1.91億美元。截至2024年初,該模型在幾個指標(biāo)上都超過了GPT-4,最引人注目的是在“大規(guī)模多任務(wù)語言理解”(MMLU)基準(zhǔn)測試中勝出。這一基準(zhǔn)是衡量大型語言模型能力的重要標(biāo)尺。例如,它以評估57個學(xué)科領(lǐng)域的知識和解決問題的熟練程度而聞名。
訓(xùn)練未來的AI模型
鑒于這些挑戰(zhàn),AI公司正在尋找新的解決方案來訓(xùn)練語言模型,以應(yīng)對不斷上漲的成本。
其中的方法有多種,比如創(chuàng)建用于執(zhí)行特定任務(wù)的較小模型,而其他一些公司正在試驗創(chuàng)建自家的合成數(shù)據(jù)來“投喂”AI系統(tǒng)。但到目前為止,這方面還沒有取得明確的突破。
例如,使用合成數(shù)據(jù)的AI模型有時會“胡言亂語”,引發(fā)所謂的“模型崩潰”。