禪宗有云:“以小見大,一花一世界,一葉一菩提”。啟示我們即便在微小如一片葉子中,也能洞察到宏大的菩提智慧。
步入AI時(shí)代,企業(yè)在智能化轉(zhuǎn)型時(shí),常面臨決策成本高、投入大且效果難以預(yù)料的挑戰(zhàn)。在此情境下,企業(yè)迫切渴望突破傳統(tǒng)AI推理與訓(xùn)練邏輯,在大模型時(shí)代踐行“以小見大,見微知著”的理念,如同從一葉之中領(lǐng)悟菩提真諦,更精簡(jiǎn)高效地駕馭智能化進(jìn)程。
2021年AI技術(shù)迅猛發(fā)展初期,就有聲音指出Scaling Law(規(guī)模定律)可能存在局限性。然而,ChatGPT從2.0到3.0再到3.5的連續(xù)迭代和巨大技術(shù)飛躍,使Scaling Law的有效性得到廣泛認(rèn)可。但ChatGPT 4.0似乎觸及人類現(xiàn)有數(shù)據(jù)處理的極限時(shí),該領(lǐng)域探索似乎遇到瓶頸。
在此背景下,行業(yè)內(nèi)開始深入探討在通向AGI的征途中,除了依賴Scaling Law外,我們還需要哪些新的策略與方向。大模型的目標(biāo)應(yīng)當(dāng)是追求“智慧”的提升,而不僅僅是參數(shù)規(guī)模?蛻羝诖氖谴竽P驮谧陨韺(shí)際場(chǎng)景中,像懂自己業(yè)務(wù)的專家一樣發(fā)揮實(shí)效,解決實(shí)際問題,而不是一個(gè)無關(guān)痛癢的外部顧問,也不是參數(shù)越大越好。大模型要真正在服務(wù)客戶時(shí)發(fā)揮內(nèi)部專家作用,就不能僅僅停留在表面交互模式,而是必須深入客戶實(shí)際數(shù)據(jù)中進(jìn)行深度理解和挖掘。因此,集中式預(yù)訓(xùn)練模式需重新審視,實(shí)時(shí)學(xué)習(xí)和訓(xùn)練模式更具探索價(jià)值。
大模型的未來,不能完全押注在Scaling Law上
很多模型都在追隨OpenAI的路徑,一味增加模型腦容量(即“參數(shù)”),認(rèn)為這樣能讓模型更聰明。然而近期大量論文表明,大模型的聰明程度與腦容量并非成正比,甚至腦容量增加,聰明程度反而降低。
近期,傳神推出的“任度數(shù)推分離大模型”獨(dú)辟蹊徑,采用雙網(wǎng)絡(luò)架構(gòu)實(shí)現(xiàn)數(shù)推分離,把推理網(wǎng)絡(luò)與數(shù)據(jù)學(xué)習(xí)網(wǎng)絡(luò)分開。可將其理解為兩個(gè)協(xié)同聯(lián)動(dòng)的大腦:一個(gè)是客戶數(shù)據(jù)學(xué)習(xí)網(wǎng)絡(luò)大腦,專注于數(shù)據(jù)的動(dòng)態(tài)管理與迭代訓(xùn)練,為模型持續(xù)注入知識(shí);一個(gè)是推理網(wǎng)絡(luò)大腦,作為經(jīng)大量數(shù)據(jù)預(yù)訓(xùn)練的基礎(chǔ)網(wǎng)絡(luò),有良好的推理和泛化能力。雙網(wǎng)絡(luò)通過共享嵌入層和中間表示層協(xié)同工作,形成類似“主腦”與“輔腦”的高效配合模式,既支持獨(dú)立訓(xùn)練,也支持聯(lián)合推理。
憑借這一創(chuàng)新模式,傳神成為全球大模型領(lǐng)域第一家實(shí)現(xiàn)數(shù)推分離技術(shù)路線的人工智能企業(yè),也是中國人工智能在行業(yè)內(nèi)的重大突破。
(一)打破上下文輸入長度限制,實(shí)現(xiàn)實(shí)時(shí)的數(shù)據(jù)學(xué)習(xí)效果
數(shù)推分離的雙網(wǎng)絡(luò)架構(gòu),能夠突破常規(guī)大模型數(shù)推混合一體技術(shù)架構(gòu)限制,使得推理大腦成熟后,數(shù)據(jù)大腦還可以持續(xù)不斷地學(xué)習(xí)接入的數(shù)據(jù),并且不影響推理大腦的能力。因此,對(duì)于雙網(wǎng)絡(luò)架構(gòu)來講,上下文輸入長度不再受限,可將類似1億字?jǐn)?shù)據(jù)乃至更多數(shù)據(jù)壓縮到神經(jīng)網(wǎng)絡(luò)中實(shí)現(xiàn)深度知識(shí)理解。
任度大模型的技術(shù)架構(gòu)無需通過大量參數(shù)存儲(chǔ)數(shù)據(jù)來豐富知識(shí),它可依靠數(shù)據(jù)大腦在客戶場(chǎng)景中實(shí)時(shí)學(xué)習(xí)數(shù)據(jù)。這樣能大幅降低參數(shù)規(guī)模,進(jìn)而減少訓(xùn)練和推理的硬件投入成本。
這種架構(gòu)能隨著客戶業(yè)務(wù)發(fā)展產(chǎn)生的新數(shù)據(jù)持續(xù)學(xué)習(xí)并提升完成數(shù)據(jù)壓縮。在數(shù)推分離模式下,更新數(shù)據(jù)的網(wǎng)絡(luò)壓縮對(duì)推理網(wǎng)絡(luò)影響極小,能廣泛適應(yīng)各種場(chǎng)景,靈活處理數(shù)據(jù),訓(xùn)練時(shí)間可縮短至分鐘級(jí)。
(二)客戶本地即可完成數(shù)據(jù)學(xué)習(xí)訓(xùn)練,確保數(shù)據(jù)安全無憂
雙網(wǎng)絡(luò)大模型架構(gòu)可以降低訓(xùn)練推理的算力和能耗成本,還能有效避免一體化大模型在客戶數(shù)據(jù)微調(diào)訓(xùn)練時(shí)出現(xiàn)的基座模型能力退化和泛化能力減弱問題。而且,數(shù)據(jù)網(wǎng)絡(luò)學(xué)習(xí)客戶數(shù)據(jù)無增加算力和專業(yè)人員,數(shù)據(jù)可在客戶現(xiàn)場(chǎng)完成訓(xùn)練,學(xué)習(xí)企業(yè)歷史數(shù)據(jù)和新數(shù)據(jù),消除企業(yè)的數(shù)據(jù)安全擔(dān)憂。
任度的數(shù)推分離雙腦模式在應(yīng)用中,解決了客戶定制大模型的三大難題:客戶數(shù)據(jù)需離場(chǎng)、向量效果差、人才投入高,實(shí)現(xiàn)本地實(shí)時(shí)學(xué)習(xí),讓客戶數(shù)據(jù)快速轉(zhuǎn)化為“專家”為客戶服務(wù)。重要的是,客戶數(shù)據(jù)本地訓(xùn)練不傳公有云,保障了數(shù)據(jù)隱私安全。
Scaling Law 不是萬能的,性參比才是根本,本土企業(yè)需另辟蹊徑
在中國市場(chǎng),大型語言模型尚未充分體現(xiàn) Scaling Law。在AGI 領(lǐng)域,Scaling Law 涉及算力、算法、數(shù)據(jù)三要素,其實(shí)現(xiàn)需大量資金支持。過去一段時(shí)間,甚至有國際大公司宣稱在大數(shù)據(jù)、大算力背景下,算法一文不值。
傳神語聯(lián)創(chuàng)始人何恩培認(rèn)為,僅依賴Scaling Law的大模型路線已遇瓶頸,要真正突破需依靠算法與架構(gòu)。事實(shí)上,在不同算法與框架下,模型性能不總與參數(shù)規(guī)模成正比,采用創(chuàng)新架構(gòu)的小參數(shù)模型憑借高效算法設(shè)計(jì),也能有強(qiáng)大性能,甚至在特定指標(biāo)上超越常規(guī)大參數(shù)模型。
目前,雙網(wǎng)絡(luò)架構(gòu)的數(shù)推分離大模型已應(yīng)用于任度“雙腦”大模型一體機(jī),其內(nèi)置的任度大模型有9B和2.1B兩種參數(shù)。在多項(xiàng)國內(nèi)外測(cè)評(píng)中,9B參數(shù)模型與數(shù)百億乃至千億參數(shù)大模型對(duì)比脫穎而出,以更少的參數(shù)實(shí)現(xiàn)領(lǐng)先性能。
事實(shí)上,過高的成本投入已使大模型開發(fā)商和使用企業(yè)裹足不前。而最佳方案顯然是企業(yè)能以最低成本實(shí)現(xiàn)大模型應(yīng)用。相較于大參數(shù)模型,小參數(shù)模型降低了算力投入和資源消耗,更適合商業(yè)落地,且滿足通用場(chǎng)景應(yīng)用需求,是驗(yàn)證大模型落地可行性的便捷方式。所以,傳神語聯(lián)未來會(huì)加大在算法和架構(gòu)提升大模型能力方面的研發(fā)投入,持續(xù)迭代。
何恩培堅(jiān)信,“算法制勝”是具有中國特色的技術(shù)路徑之一,這符合中國人的聰明智慧,在以大模型為代表的AI時(shí)代尤為重要。相信中國有很多像傳神這樣的團(tuán)隊(duì)在默默耕耘,正在以獨(dú)特理念引領(lǐng)智能創(chuàng)新,只是他們現(xiàn)在還未走向臺(tái)前,但終將會(huì)成為中國 AI 技術(shù)發(fā)展的重要力量。