首頁|必讀|視頻|專訪|運營|制造|監(jiān)管|大數(shù)據(jù)|物聯(lián)網(wǎng)|量子|元宇宙|智能汽車|特約記者
手機(jī)|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計算|芯片|報告|智慧城市|移動互聯(lián)網(wǎng)|會展
首頁 >> 移動互聯(lián)網(wǎng) >> 正文

大模型技術(shù)新里程碑:任度雙網(wǎng)絡(luò)架構(gòu)實現(xiàn)數(shù)推分離

2024年11月14日 17:49  CCTIME飛象網(wǎng)  

在大模型技術(shù)發(fā)展浪潮中,Scaling Law(尺度定律)曾是業(yè)界遵循的重要法則。然而,知名科技媒體《The Information》報道稱 OpenAI 下一代旗艦?zāi)P蚈rion訓(xùn)練效果或遠(yuǎn)不及預(yù)期,與 GPT-4 相比,Orion 性能提升也許微乎其微。這引發(fā)了業(yè)界對大模型技術(shù)發(fā)展路徑的深度思考:Scaling Law是不是大模型的唯一方向?

基于Scaling Law的大模型落地面臨重大瓶頸。一方面,大模型成本高昂且技術(shù)同質(zhì)化嚴(yán)重。同時,如何讓大模型有效學(xué)習(xí)客戶數(shù)據(jù)并成為客戶業(yè)務(wù)領(lǐng)域?qū)<,是一個挑戰(zhàn)。若將數(shù)據(jù)提供給大模型服務(wù)商進(jìn)行訓(xùn)練,數(shù)據(jù)安全難以保障;若企業(yè)自行訓(xùn)練,不僅算力和人才成本高,而且微調(diào)模式還可能削弱大模型通用能力。另一方面,采用基于向量檢索的模式難以保障輸出結(jié)果的準(zhǔn)確性。

11月14日,CSDN全球機(jī)器學(xué)習(xí)技術(shù)大會上,傳神語聯(lián)網(wǎng)網(wǎng)絡(luò)科技股份有限公司董事長何恩培先生發(fā)表了《基于雙網(wǎng)絡(luò)架構(gòu)數(shù)推分離大模型的探索與實踐》主題演講,并提出:大模型正在從Scaling Law時代進(jìn)入“實時學(xué)習(xí)”時代,回答大模型沿著什么樣的技術(shù)路徑能滿足客戶應(yīng)用落地、為技術(shù)探索開辟新的思路,引發(fā)了與會專家們的熱烈討論。

雙網(wǎng)絡(luò)架構(gòu)實現(xiàn)數(shù)推分離

走出技術(shù)沙漠

在Scaling Law指引下,大模型廠商為提升模型能力,不斷擴(kuò)大預(yù)訓(xùn)練數(shù)據(jù)、訓(xùn)練算力并擴(kuò)大模型參數(shù)規(guī)模。但其背后爭議在于資源需求龐大,如GPT-4已使用約2萬多張顯卡,未來模型算力需求可能達(dá)數(shù)十萬甚至上百萬張顯卡,引發(fā)對資源消耗的擔(dān)憂,也帶來過高的探索成本。

面對技術(shù)路線問題,何恩培認(rèn)為,Scaling Law曾在過去為人工智能發(fā)展立下汗馬功勞,但單純依賴它進(jìn)行集中式暴力訓(xùn)練已顯露諸多弊端。大模型追求的是“聰明”,在實際場景中發(fā)揮作用,而非參數(shù)越來越大。因此,集中式預(yù)訓(xùn)練模式值得重新審視,實時學(xué)習(xí)和訓(xùn)練模式更具探索價值。

實際上,在大模型的三要素中,算法占主導(dǎo)地位,它決定訓(xùn)練數(shù)據(jù)規(guī)模和訓(xùn)練算力消耗,算法的同質(zhì)化必然導(dǎo)致數(shù)據(jù)規(guī)模和訓(xùn)練算力的同質(zhì)化,最終造成輸出能力的趨同。

因此大模型在相同參數(shù)下,如果模型的算法和架構(gòu)更先進(jìn),則需要的訓(xùn)練算力越小,訓(xùn)練數(shù)據(jù)也越少,且不影響模型的能力,甚至在部分指標(biāo)上可以超越常規(guī)架構(gòu)大參數(shù)的模型。相比之下這種采用高效算法和架構(gòu)的小參數(shù)模型更適合商業(yè)落地,而且也可以滿足通用場景的需求。

傳神的任度大模型走了一條算法突破之路,以雙網(wǎng)絡(luò)架構(gòu)實現(xiàn)數(shù)推分離,將推理網(wǎng)絡(luò)與數(shù)據(jù)學(xué)習(xí)網(wǎng)絡(luò)分離,走出了技術(shù)沙漠。

企業(yè)數(shù)據(jù)學(xué)習(xí)網(wǎng)絡(luò)如同人類左腦,專注于數(shù)據(jù)的動態(tài)管理與迭代訓(xùn)練,持續(xù)為模型注入知識養(yǎng)分;推理網(wǎng)絡(luò)則如同人類右腦,作為經(jīng)大量數(shù)據(jù)預(yù)訓(xùn)練的基礎(chǔ)網(wǎng)絡(luò),具備不錯的推理和泛化能力。雙網(wǎng)絡(luò)協(xié)同工作顯著降低了訓(xùn)練算力成本,有效避免微調(diào)訓(xùn)練造成的基座模型能力退化和泛化能力減弱等問題。數(shù)據(jù)學(xué)習(xí)網(wǎng)絡(luò)可以讓數(shù)據(jù)不出域,在企業(yè)現(xiàn)場學(xué)習(xí)歷史數(shù)據(jù)和業(yè)務(wù)運營中的新數(shù)據(jù),解除了企業(yè)對數(shù)據(jù)安全的擔(dān)憂。

何恩培將數(shù)據(jù)訓(xùn)練過程類比于人類的知識學(xué)習(xí),任度采用了數(shù)推分離技術(shù)架構(gòu),在預(yù)訓(xùn)練階段僅需要適量訓(xùn)練數(shù)據(jù),正如人類通過閱讀幾百本書就能獲得一定的智慧。

同時,數(shù)推分離的雙網(wǎng)絡(luò)架構(gòu)突破了常規(guī)大模型技術(shù)架構(gòu)限制,上下文輸入長度不受限,可將1億字?jǐn)?shù)據(jù)壓縮到神經(jīng)網(wǎng)絡(luò)中實現(xiàn)深度知識理解。任度大模型可以大大降低訓(xùn)練和推理的硬件投入成本,實現(xiàn)極為接近實時的數(shù)據(jù)學(xué)習(xí)效果,哪怕企業(yè)只有極少量數(shù)據(jù)更新,也能快速上傳并完成數(shù)據(jù)壓縮。

在數(shù)推分離模式下,更新數(shù)據(jù)的網(wǎng)絡(luò)壓縮對推理網(wǎng)絡(luò)影響微乎其微,能廣泛適應(yīng)各種場景,靈活處理各類數(shù)據(jù)操作,訓(xùn)練時間可縮短至分鐘級。

全棧根原創(chuàng)

實現(xiàn)0開源依賴

任度大模型的數(shù)推分離雙網(wǎng)絡(luò)架構(gòu),最大的意義在于,從底層算法框架到上層應(yīng)用都是全技術(shù)棧自主研發(fā)的成果,未使用任何開源代碼和框架。

“我們自主研發(fā)了機(jī)器學(xué)習(xí)算法框架和模型架構(gòu),這使得我們的任何想法和創(chuàng)新都可以不受限制地去實踐,讓任度大模型具備實時學(xué)習(xí)客戶數(shù)據(jù)的能力。在國內(nèi)外,能做到這一點的企業(yè)為數(shù)不多!焙味髋鄰(qiáng)調(diào)。

任度大模型目前擁有2.1B和9B兩個版本,其中多模態(tài)9B參數(shù)版本在全球評測中,已躋身全球大模型行業(yè)第一梯隊。在多項國內(nèi)外評測中,任度9B模型與百億千億參數(shù)大模型的對比中脫穎而出,以更少參數(shù)實現(xiàn)領(lǐng)先性能。同時,2.1B參數(shù)版本在2024年9月的MMLU評估中,綜合評分超越了Gemma-7B、LLaMA2-34B等知名大模型,性參比更是超越了包括GPT-4o、Phi-3、Qwen2-7B、Llama3.1等國際頂尖大模型,以小參數(shù)實現(xiàn)了與百億、千億級別模型相媲美的性能。

任度大模型在訓(xùn)練與推理過程中的算力成本顯著降低,僅為同等大型模型的1/5—1/10以及1/2—1/4。在所有評測中,性能參比(大模型能力分?jǐn)?shù)/大模型參數(shù))幾乎全部處在前列,大部分是第一。

“雙腦”大模型一體機(jī)

一小時成為專屬業(yè)務(wù)專家

目前,雙網(wǎng)絡(luò)架構(gòu)的數(shù)推分離大模型已應(yīng)用在任度“雙腦”大模型一體機(jī)中,即將投放市場,解決大模型落地痛點。

何恩培表示,數(shù)推分離的雙腦模式,解決了企業(yè)數(shù)據(jù)離場訓(xùn)練、向量效果有限以及人才投入高等難題,實現(xiàn)本地實時學(xué)習(xí),一小時就能成為專屬業(yè)務(wù)專家。企業(yè)數(shù)據(jù)在本地訓(xùn)練,無需上傳至公有云,保障了數(shù)據(jù)隱私安全。根原創(chuàng)和高性參比,解決了企業(yè)在應(yīng)用大模型中的高硬件投入、高能耗以及技術(shù)安全和軟件漏洞等顧慮。

預(yù)訓(xùn)練之后的模型如何實現(xiàn)少量數(shù)據(jù)實時學(xué)習(xí)和訓(xùn)練模式,是全球大模型領(lǐng)域都在苦苦探索的課題。任度大模型獨辟蹊徑,何恩培坦言:“我們僥幸走通了這條路。我們沒有從主流大模型發(fā)展遇到的問題中尋找突破機(jī)會,而是從公司誕生起就走在這條路上,走了20多年,也曾感到孤獨和不自信,但看到大家都向這個方向走來,才確信自己走的沒錯,直到我們大模型評測進(jìn)入第一梯隊,才知道我們的技術(shù)路線也不差。”

編 輯:T01
飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對于經(jīng)過授權(quán)可以轉(zhuǎn)載,請必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和飛象網(wǎng)來源。
2.凡注明“來源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點和對其真實性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問題,請在相關(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進(jìn)行的“內(nèi)容核實”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權(quán)。
相關(guān)新聞              
 
人物
愛立信中國區(qū)總裁方迎:新質(zhì)網(wǎng)絡(luò)創(chuàng)造新質(zhì)價值
精彩專題
2024中國算力大會
2024年國際信息通信展
中國信科亮相2024年國際信息通信展
第25屆中國國際光電博覽會
CCTIME推薦
關(guān)于我們 | 廣告報價 | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號-1  電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證080234號 京公網(wǎng)安備110105000771號
公司名稱: 北京飛象互動文化傳媒有限公司
未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像