首頁|必讀|視頻|專訪|運(yùn)營|制造|監(jiān)管|大數(shù)據(jù)|物聯(lián)網(wǎng)|量子|元宇宙|智能汽車|特約記者
手機(jī)|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計(jì)算|芯片|報(bào)告|智慧城市|移動(dòng)互聯(lián)網(wǎng)|會(huì)展
首頁 >> 移動(dòng)互聯(lián)網(wǎng) >> 正文

任度雙腦大模型:國內(nèi)首創(chuàng)技術(shù)路線,突破AI技術(shù)邊界

2024年11月18日 17:53  CCTIME飛象網(wǎng)  

禪宗有云:“以小見大,一花一世界,一葉一菩提”。啟示我們即便在微小如一片葉子中,也能洞察到宏大的菩提智慧。

步入AI時(shí)代,企業(yè)在智能化轉(zhuǎn)型時(shí),常面臨決策成本高、投入大且效果難以預(yù)料的挑戰(zhàn)。在此情境下,企業(yè)迫切渴望突破傳統(tǒng)AI推理與訓(xùn)練邏輯,在大模型時(shí)代踐行“以小見大,見微知著”的理念,如同從一葉之中領(lǐng)悟菩提真諦,更精簡(jiǎn)高效地駕馭智能化進(jìn)程。

2021年AI技術(shù)迅猛發(fā)展初期,就有聲音指出Scaling Law(規(guī)模定律)可能存在局限性。然而,ChatGPT從2.0到3.0再到3.5的連續(xù)迭代和巨大技術(shù)飛躍,使Scaling Law的有效性得到廣泛認(rèn)可。但ChatGPT 4.0似乎觸及人類現(xiàn)有數(shù)據(jù)處理的極限時(shí),該領(lǐng)域探索似乎遇到瓶頸。

在此背景下,行業(yè)內(nèi)開始深入探討在通向AGI的征途中,除了依賴Scaling Law外,我們還需要哪些新的策略與方向。大模型的目標(biāo)應(yīng)當(dāng)是追求“智慧”的提升,而不僅僅是參數(shù)規(guī)模?蛻羝诖氖谴竽P驮谧陨韺(shí)際場(chǎng)景中,像懂自己業(yè)務(wù)的專家一樣發(fā)揮實(shí)效,解決實(shí)際問題,而不是一個(gè)無關(guān)痛癢的外部顧問,也不是參數(shù)越大越好。大模型要真正在服務(wù)客戶時(shí)發(fā)揮內(nèi)部專家作用,就不能僅僅停留在表面交互模式,而是必須深入客戶實(shí)際數(shù)據(jù)中進(jìn)行深度理解和挖掘。因此,集中式預(yù)訓(xùn)練模式需重新審視,實(shí)時(shí)學(xué)習(xí)和訓(xùn)練模式更具探索價(jià)值。

大模型的未來,不能完全押注在Scaling Law上

很多模型都在追隨OpenAI的路徑,一味增加模型腦容量(即“參數(shù)”),認(rèn)為這樣能讓模型更聰明。然而近期大量論文表明,大模型的聰明程度與腦容量并非成正比,甚至腦容量增加,聰明程度反而降低。

近期,傳神推出的“任度數(shù)推分離大模型”獨(dú)辟蹊徑,采用雙網(wǎng)絡(luò)架構(gòu)實(shí)現(xiàn)數(shù)推分離,把推理網(wǎng)絡(luò)與數(shù)據(jù)學(xué)習(xí)網(wǎng)絡(luò)分開。可將其理解為兩個(gè)協(xié)同聯(lián)動(dòng)的大腦:一個(gè)是客戶數(shù)據(jù)學(xué)習(xí)網(wǎng)絡(luò)大腦,專注于數(shù)據(jù)的動(dòng)態(tài)管理與迭代訓(xùn)練,為模型持續(xù)注入知識(shí);一個(gè)是推理網(wǎng)絡(luò)大腦,作為經(jīng)大量數(shù)據(jù)預(yù)訓(xùn)練的基礎(chǔ)網(wǎng)絡(luò),有良好的推理和泛化能力。雙網(wǎng)絡(luò)通過共享嵌入層和中間表示層協(xié)同工作,形成類似“主腦”與“輔腦”的高效配合模式,既支持獨(dú)立訓(xùn)練,也支持聯(lián)合推理。

憑借這一創(chuàng)新模式,傳神成為全球大模型領(lǐng)域第一家實(shí)現(xiàn)數(shù)推分離技術(shù)路線的人工智能企業(yè),也是中國人工智能在行業(yè)內(nèi)的重大突破。

(一)打破上下文輸入長度限制,實(shí)現(xiàn)實(shí)時(shí)的數(shù)據(jù)學(xué)習(xí)效果

數(shù)推分離的雙網(wǎng)絡(luò)架構(gòu),能夠突破常規(guī)大模型數(shù)推混合一體技術(shù)架構(gòu)限制,使得推理大腦成熟后,數(shù)據(jù)大腦還可以持續(xù)不斷地學(xué)習(xí)接入的數(shù)據(jù),并且不影響推理大腦的能力。因此,對(duì)于雙網(wǎng)絡(luò)架構(gòu)來講,上下文輸入長度不再受限,可將類似1億字?jǐn)?shù)據(jù)乃至更多數(shù)據(jù)壓縮到神經(jīng)網(wǎng)絡(luò)中實(shí)現(xiàn)深度知識(shí)理解。

任度大模型的技術(shù)架構(gòu)無需通過大量參數(shù)存儲(chǔ)數(shù)據(jù)來豐富知識(shí),它可依靠數(shù)據(jù)大腦在客戶場(chǎng)景中實(shí)時(shí)學(xué)習(xí)數(shù)據(jù)。這樣能大幅降低參數(shù)規(guī)模,進(jìn)而減少訓(xùn)練和推理的硬件投入成本。

這種架構(gòu)能隨著客戶業(yè)務(wù)發(fā)展產(chǎn)生的新數(shù)據(jù)持續(xù)學(xué)習(xí)并提升完成數(shù)據(jù)壓縮。在數(shù)推分離模式下,更新數(shù)據(jù)的網(wǎng)絡(luò)壓縮對(duì)推理網(wǎng)絡(luò)影響極小,能廣泛適應(yīng)各種場(chǎng)景,靈活處理數(shù)據(jù),訓(xùn)練時(shí)間可縮短至分鐘級(jí)。

(二)客戶本地即可完成數(shù)據(jù)學(xué)習(xí)訓(xùn)練,確保數(shù)據(jù)安全無憂

雙網(wǎng)絡(luò)大模型架構(gòu)可以降低訓(xùn)練推理的算力和能耗成本,還能有效避免一體化大模型在客戶數(shù)據(jù)微調(diào)訓(xùn)練時(shí)出現(xiàn)的基座模型能力退化和泛化能力減弱問題。而且,數(shù)據(jù)網(wǎng)絡(luò)學(xué)習(xí)客戶數(shù)據(jù)無增加算力和專業(yè)人員,數(shù)據(jù)可在客戶現(xiàn)場(chǎng)完成訓(xùn)練,學(xué)習(xí)企業(yè)歷史數(shù)據(jù)和新數(shù)據(jù),消除企業(yè)的數(shù)據(jù)安全擔(dān)憂。

任度的數(shù)推分離雙腦模式在應(yīng)用中,解決了客戶定制大模型的三大難題:客戶數(shù)據(jù)需離場(chǎng)、向量效果差、人才投入高,實(shí)現(xiàn)本地實(shí)時(shí)學(xué)習(xí),讓客戶數(shù)據(jù)快速轉(zhuǎn)化為“專家”為客戶服務(wù)。重要的是,客戶數(shù)據(jù)本地訓(xùn)練不傳公有云,保障了數(shù)據(jù)隱私安全。

Scaling Law 不是萬能的,性參比才是根本,本土企業(yè)需另辟蹊徑

在中國市場(chǎng),大型語言模型尚未充分體現(xiàn) Scaling Law。在AGI 領(lǐng)域,Scaling Law 涉及算力、算法、數(shù)據(jù)三要素,其實(shí)現(xiàn)需大量資金支持。過去一段時(shí)間,甚至有國際大公司宣稱在大數(shù)據(jù)、大算力背景下,算法一文不值。

傳神語聯(lián)創(chuàng)始人何恩培認(rèn)為,僅依賴Scaling Law的大模型路線已遇瓶頸,要真正突破需依靠算法與架構(gòu)。事實(shí)上,在不同算法與框架下,模型性能不總與參數(shù)規(guī)模成正比,采用創(chuàng)新架構(gòu)的小參數(shù)模型憑借高效算法設(shè)計(jì),也能有強(qiáng)大性能,甚至在特定指標(biāo)上超越常規(guī)大參數(shù)模型。

目前,雙網(wǎng)絡(luò)架構(gòu)的數(shù)推分離大模型已應(yīng)用于任度“雙腦”大模型一體機(jī),其內(nèi)置的任度大模型有9B和2.1B兩種參數(shù)。在多項(xiàng)國內(nèi)外測(cè)評(píng)中,9B參數(shù)模型與數(shù)百億乃至千億參數(shù)大模型對(duì)比脫穎而出,以更少的參數(shù)實(shí)現(xiàn)領(lǐng)先性能。

事實(shí)上,過高的成本投入已使大模型開發(fā)商和使用企業(yè)裹足不前。而最佳方案顯然是企業(yè)能以最低成本實(shí)現(xiàn)大模型應(yīng)用。相較于大參數(shù)模型,小參數(shù)模型降低了算力投入和資源消耗,更適合商業(yè)落地,且滿足通用場(chǎng)景應(yīng)用需求,是驗(yàn)證大模型落地可行性的便捷方式。所以,傳神語聯(lián)未來會(huì)加大在算法和架構(gòu)提升大模型能力方面的研發(fā)投入,持續(xù)迭代。

何恩培堅(jiān)信,“算法制勝”是具有中國特色的技術(shù)路徑之一,這符合中國人的聰明智慧,在以大模型為代表的AI時(shí)代尤為重要。相信中國有很多像傳神這樣的團(tuán)隊(duì)在默默耕耘,正在以獨(dú)特理念引領(lǐng)智能創(chuàng)新,只是他們現(xiàn)在還未走向臺(tái)前,但終將會(huì)成為中國 AI 技術(shù)發(fā)展的重要力量。

編 輯:T01
飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對(duì)于經(jīng)過授權(quán)可以轉(zhuǎn)載,請(qǐng)必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和飛象網(wǎng)來源。
2.凡注明“來源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問題,請(qǐng)?jiān)谙嚓P(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時(shí)間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進(jìn)行的“內(nèi)容核實(shí)”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對(duì)此聲明的最終解釋權(quán)。
相關(guān)新聞              
 
人物
愛立信中國區(qū)總裁方迎:新質(zhì)網(wǎng)絡(luò)創(chuàng)造新質(zhì)價(jià)值
精彩專題
2024中國算力大會(huì)
2024年國際信息通信展
中國信科亮相2024年國際信息通信展
第25屆中國國際光電博覽會(huì)
CCTIME推薦
關(guān)于我們 | 廣告報(bào)價(jià) | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號(hào)-1  電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證080234號(hào) 京公網(wǎng)安備110105000771號(hào)
公司名稱: 北京飛象互動(dòng)文化傳媒有限公司
未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像