在大模型技術(shù)發(fā)展浪潮中,Scaling Law(尺度定律)曾是業(yè)界遵循的重要法則。然而,知名科技媒體《The Information》報道稱 OpenAI 下一代旗艦?zāi)P蚈rion訓(xùn)練效果或遠(yuǎn)不及預(yù)期,與 GPT-4 相比,Orion 性能提升也許微乎其微。這引發(fā)了業(yè)界對大模型技術(shù)發(fā)展路徑的深度思考:Scaling Law是不是大模型的唯一方向?
基于Scaling Law的大模型落地面臨重大瓶頸。一方面,大模型成本高昂且技術(shù)同質(zhì)化嚴(yán)重。同時,如何讓大模型有效學(xué)習(xí)客戶數(shù)據(jù)并成為客戶業(yè)務(wù)領(lǐng)域?qū)<,是一個挑戰(zhàn)。若將數(shù)據(jù)提供給大模型服務(wù)商進(jìn)行訓(xùn)練,數(shù)據(jù)安全難以保障;若企業(yè)自行訓(xùn)練,不僅算力和人才成本高,而且微調(diào)模式還可能削弱大模型通用能力。另一方面,采用基于向量檢索的模式難以保障輸出結(jié)果的準(zhǔn)確性。
11月14日,CSDN全球機(jī)器學(xué)習(xí)技術(shù)大會上,傳神語聯(lián)網(wǎng)網(wǎng)絡(luò)科技股份有限公司董事長何恩培先生發(fā)表了《基于雙網(wǎng)絡(luò)架構(gòu)數(shù)推分離大模型的探索與實踐》主題演講,并提出:大模型正在從Scaling Law時代進(jìn)入“實時學(xué)習(xí)”時代,回答大模型沿著什么樣的技術(shù)路徑能滿足客戶應(yīng)用落地、為技術(shù)探索開辟新的思路,引發(fā)了與會專家們的熱烈討論。
雙網(wǎng)絡(luò)架構(gòu)實現(xiàn)數(shù)推分離
走出技術(shù)沙漠
在Scaling Law指引下,大模型廠商為提升模型能力,不斷擴(kuò)大預(yù)訓(xùn)練數(shù)據(jù)、訓(xùn)練算力并擴(kuò)大模型參數(shù)規(guī)模。但其背后爭議在于資源需求龐大,如GPT-4已使用約2萬多張顯卡,未來模型算力需求可能達(dá)數(shù)十萬甚至上百萬張顯卡,引發(fā)對資源消耗的擔(dān)憂,也帶來過高的探索成本。
面對技術(shù)路線問題,何恩培認(rèn)為,Scaling Law曾在過去為人工智能發(fā)展立下汗馬功勞,但單純依賴它進(jìn)行集中式暴力訓(xùn)練已顯露諸多弊端。大模型追求的是“聰明”,在實際場景中發(fā)揮作用,而非參數(shù)越來越大。因此,集中式預(yù)訓(xùn)練模式值得重新審視,實時學(xué)習(xí)和訓(xùn)練模式更具探索價值。
實際上,在大模型的三要素中,算法占主導(dǎo)地位,它決定訓(xùn)練數(shù)據(jù)規(guī)模和訓(xùn)練算力消耗,算法的同質(zhì)化必然導(dǎo)致數(shù)據(jù)規(guī)模和訓(xùn)練算力的同質(zhì)化,最終造成輸出能力的趨同。
因此大模型在相同參數(shù)下,如果模型的算法和架構(gòu)更先進(jìn),則需要的訓(xùn)練算力越小,訓(xùn)練數(shù)據(jù)也越少,且不影響模型的能力,甚至在部分指標(biāo)上可以超越常規(guī)架構(gòu)大參數(shù)的模型。相比之下這種采用高效算法和架構(gòu)的小參數(shù)模型更適合商業(yè)落地,而且也可以滿足通用場景的需求。
傳神的任度大模型走了一條算法突破之路,以雙網(wǎng)絡(luò)架構(gòu)實現(xiàn)數(shù)推分離,將推理網(wǎng)絡(luò)與數(shù)據(jù)學(xué)習(xí)網(wǎng)絡(luò)分離,走出了技術(shù)沙漠。
企業(yè)數(shù)據(jù)學(xué)習(xí)網(wǎng)絡(luò)如同人類左腦,專注于數(shù)據(jù)的動態(tài)管理與迭代訓(xùn)練,持續(xù)為模型注入知識養(yǎng)分;推理網(wǎng)絡(luò)則如同人類右腦,作為經(jīng)大量數(shù)據(jù)預(yù)訓(xùn)練的基礎(chǔ)網(wǎng)絡(luò),具備不錯的推理和泛化能力。雙網(wǎng)絡(luò)協(xié)同工作顯著降低了訓(xùn)練算力成本,有效避免微調(diào)訓(xùn)練造成的基座模型能力退化和泛化能力減弱等問題。數(shù)據(jù)學(xué)習(xí)網(wǎng)絡(luò)可以讓數(shù)據(jù)不出域,在企業(yè)現(xiàn)場學(xué)習(xí)歷史數(shù)據(jù)和業(yè)務(wù)運營中的新數(shù)據(jù),解除了企業(yè)對數(shù)據(jù)安全的擔(dān)憂。
何恩培將數(shù)據(jù)訓(xùn)練過程類比于人類的知識學(xué)習(xí),任度采用了數(shù)推分離技術(shù)架構(gòu),在預(yù)訓(xùn)練階段僅需要適量訓(xùn)練數(shù)據(jù),正如人類通過閱讀幾百本書就能獲得一定的智慧。
同時,數(shù)推分離的雙網(wǎng)絡(luò)架構(gòu)突破了常規(guī)大模型技術(shù)架構(gòu)限制,上下文輸入長度不受限,可將1億字?jǐn)?shù)據(jù)壓縮到神經(jīng)網(wǎng)絡(luò)中實現(xiàn)深度知識理解。任度大模型可以大大降低訓(xùn)練和推理的硬件投入成本,實現(xiàn)極為接近實時的數(shù)據(jù)學(xué)習(xí)效果,哪怕企業(yè)只有極少量數(shù)據(jù)更新,也能快速上傳并完成數(shù)據(jù)壓縮。
在數(shù)推分離模式下,更新數(shù)據(jù)的網(wǎng)絡(luò)壓縮對推理網(wǎng)絡(luò)影響微乎其微,能廣泛適應(yīng)各種場景,靈活處理各類數(shù)據(jù)操作,訓(xùn)練時間可縮短至分鐘級。
全棧根原創(chuàng)
實現(xiàn)0開源依賴
任度大模型的數(shù)推分離雙網(wǎng)絡(luò)架構(gòu),最大的意義在于,從底層算法框架到上層應(yīng)用都是全技術(shù)棧自主研發(fā)的成果,未使用任何開源代碼和框架。
“我們自主研發(fā)了機(jī)器學(xué)習(xí)算法框架和模型架構(gòu),這使得我們的任何想法和創(chuàng)新都可以不受限制地去實踐,讓任度大模型具備實時學(xué)習(xí)客戶數(shù)據(jù)的能力。在國內(nèi)外,能做到這一點的企業(yè)為數(shù)不多!焙味髋鄰(qiáng)調(diào)。
任度大模型目前擁有2.1B和9B兩個版本,其中多模態(tài)9B參數(shù)版本在全球評測中,已躋身全球大模型行業(yè)第一梯隊。在多項國內(nèi)外評測中,任度9B模型與百億千億參數(shù)大模型的對比中脫穎而出,以更少參數(shù)實現(xiàn)領(lǐng)先性能。同時,2.1B參數(shù)版本在2024年9月的MMLU評估中,綜合評分超越了Gemma-7B、LLaMA2-34B等知名大模型,性參比更是超越了包括GPT-4o、Phi-3、Qwen2-7B、Llama3.1等國際頂尖大模型,以小參數(shù)實現(xiàn)了與百億、千億級別模型相媲美的性能。
任度大模型在訓(xùn)練與推理過程中的算力成本顯著降低,僅為同等大型模型的1/5—1/10以及1/2—1/4。在所有評測中,性能參比(大模型能力分?jǐn)?shù)/大模型參數(shù))幾乎全部處在前列,大部分是第一。
“雙腦”大模型一體機(jī)
一小時成為專屬業(yè)務(wù)專家
目前,雙網(wǎng)絡(luò)架構(gòu)的數(shù)推分離大模型已應(yīng)用在任度“雙腦”大模型一體機(jī)中,即將投放市場,解決大模型落地痛點。
何恩培表示,數(shù)推分離的雙腦模式,解決了企業(yè)數(shù)據(jù)離場訓(xùn)練、向量效果有限以及人才投入高等難題,實現(xiàn)本地實時學(xué)習(xí),一小時就能成為專屬業(yè)務(wù)專家。企業(yè)數(shù)據(jù)在本地訓(xùn)練,無需上傳至公有云,保障了數(shù)據(jù)隱私安全。根原創(chuàng)和高性參比,解決了企業(yè)在應(yīng)用大模型中的高硬件投入、高能耗以及技術(shù)安全和軟件漏洞等顧慮。
預(yù)訓(xùn)練之后的模型如何實現(xiàn)少量數(shù)據(jù)實時學(xué)習(xí)和訓(xùn)練模式,是全球大模型領(lǐng)域都在苦苦探索的課題。任度大模型獨辟蹊徑,何恩培坦言:“我們僥幸走通了這條路。我們沒有從主流大模型發(fā)展遇到的問題中尋找突破機(jī)會,而是從公司誕生起就走在這條路上,走了20多年,也曾感到孤獨和不自信,但看到大家都向這個方向走來,才確信自己走的沒錯,直到我們大模型評測進(jìn)入第一梯隊,才知道我們的技術(shù)路線也不差。”