亚洲天堂无码在线播放,日本三级不卡,免费又黄又硬又大爽日本

在大模型技術(shù)發(fā)展浪潮中，Scaling Law（尺度定律）曾是業(yè)界遵循的重要法則。然而，知名科技媒體《The Information》報道稱 OpenAI 下一代旗艦?zāi)Ｐ蚈rion訓(xùn)練效果或遠(yuǎn)不及預(yù)期，與 GPT-4 相比，Orion 性能提升也許微乎其微。這引發(fā)了業(yè)界對大模型技術(shù)發(fā)展路徑的深度思考：Scaling Law是不是大模型的唯一方向？

基于Scaling Law的大模型落地面臨重大瓶頸。一方面，大模型成本高昂且技術(shù)同質(zhì)化嚴(yán)重。同時，如何讓大模型有效學(xué)習(xí)客戶數(shù)據(jù)并成為客戶業(yè)務(wù)領(lǐng)域?qū)＜�，是一個挑戰(zhàn)。若將數(shù)據(jù)提供給大模型服務(wù)商進行訓(xùn)練，數(shù)據(jù)安全難以保障；若企業(yè)自行訓(xùn)練，不僅算力和人才成本高，而且微調(diào)模式還可能削弱大模型通用能力。另一方面，采用基于向量檢索的模式難以保障輸出結(jié)果的準(zhǔn)確性。

11月14日，CSDN全球機器學(xué)習(xí)技術(shù)大會上，傳神語聯(lián)網(wǎng)網(wǎng)絡(luò)科技股份有限公司董事長何恩培先生發(fā)表了《基于雙網(wǎng)絡(luò)架構(gòu)數(shù)推分離大模型的探索與實踐》主題演講，并提出：大模型正在從Scaling Law時代進入“實時學(xué)習(xí)”時代，回答大模型沿著什么樣的技術(shù)路徑能滿足客戶應(yīng)用落地、為技術(shù)探索開辟新的思路，引發(fā)了與會專家們的熱烈討論。

雙網(wǎng)絡(luò)架構(gòu)實現(xiàn)數(shù)推分離

走出技術(shù)沙漠

在Scaling Law指引下，大模型廠商為提升模型能力，不斷擴大預(yù)訓(xùn)練數(shù)據(jù)、訓(xùn)練算力并擴大模型參數(shù)規(guī)模。但其背后爭議在于資源需求龐大，如GPT-4已使用約2萬多張顯卡，未來模型算力需求可能達數(shù)十萬甚至上百萬張顯卡，引發(fā)對資源消耗的擔(dān)憂，也帶來過高的探索成本。

面對技術(shù)路線問題，何恩培認(rèn)為，Scaling Law曾在過去為人工智能發(fā)展立下汗馬功勞，但單純依賴它進行集中式暴力訓(xùn)練已顯露諸多弊端。大模型追求的是“聰明”，在實際場景中發(fā)揮作用，而非參數(shù)越來越大。因此，集中式預(yù)訓(xùn)練模式值得重新審視，實時學(xué)習(xí)和訓(xùn)練模式更具探索價值。

實際上，在大模型的三要素中，算法占主導(dǎo)地位，它決定訓(xùn)練數(shù)據(jù)規(guī)模和訓(xùn)練算力消耗，算法的同質(zhì)化必然導(dǎo)致數(shù)據(jù)規(guī)模和訓(xùn)練算力的同質(zhì)化，最終造成輸出能力的趨同。

因此大模型在相同參數(shù)下，如果模型的算法和架構(gòu)更先進，則需要的訓(xùn)練算力越小，訓(xùn)練數(shù)據(jù)也越少，且不影響模型的能力，甚至在部分指標(biāo)上可以超越常規(guī)架構(gòu)大參數(shù)的模型。相比之下這種采用高效算法和架構(gòu)的小參數(shù)模型更適合商業(yè)落地，而且也可以滿足通用場景的需求。

傳神的任度大模型走了一條算法突破之路，以雙網(wǎng)絡(luò)架構(gòu)實現(xiàn)數(shù)推分離，將推理網(wǎng)絡(luò)與數(shù)據(jù)學(xué)習(xí)網(wǎng)絡(luò)分離，走出了技術(shù)沙漠。

企業(yè)數(shù)據(jù)學(xué)習(xí)網(wǎng)絡(luò)如同人類左腦，專注于數(shù)據(jù)的動態(tài)管理與迭代訓(xùn)練，持續(xù)為模型注入知識養(yǎng)分；推理網(wǎng)絡(luò)則如同人類右腦，作為經(jīng)大量數(shù)據(jù)預(yù)訓(xùn)練的基礎(chǔ)網(wǎng)絡(luò)，具備不錯的推理和泛化能力。雙網(wǎng)絡(luò)協(xié)同工作顯著降低了訓(xùn)練算力成本，有效避免微調(diào)訓(xùn)練造成的基座模型能力退化和泛化能力減弱等問題。數(shù)據(jù)學(xué)習(xí)網(wǎng)絡(luò)可以讓數(shù)據(jù)不出域，在企業(yè)現(xiàn)場學(xué)習(xí)歷史數(shù)據(jù)和業(yè)務(wù)運營中的新數(shù)據(jù)，解除了企業(yè)對數(shù)據(jù)安全的擔(dān)憂。

何恩培將數(shù)據(jù)訓(xùn)練過程類比于人類的知識學(xué)習(xí)，任度采用了數(shù)推分離技術(shù)架構(gòu)，在預(yù)訓(xùn)練階段僅需要適量訓(xùn)練數(shù)據(jù)，正如人類通過閱讀幾百本書就能獲得一定的智慧。

同時，數(shù)推分離的雙網(wǎng)絡(luò)架構(gòu)突破了常規(guī)大模型技術(shù)架構(gòu)限制，上下文輸入長度不受限，可將1億字?jǐn)?shù)據(jù)壓縮到神經(jīng)網(wǎng)絡(luò)中實現(xiàn)深度知識理解。任度大模型可以大大降低訓(xùn)練和推理的硬件投入成本，實現(xiàn)極為接近實時的數(shù)據(jù)學(xué)習(xí)效果，哪怕企業(yè)只有極少量數(shù)據(jù)更新，也能快速上傳并完成數(shù)據(jù)壓縮。

在數(shù)推分離模式下，更新數(shù)據(jù)的網(wǎng)絡(luò)壓縮對推理網(wǎng)絡(luò)影響微乎其微，能廣泛適應(yīng)各種場景，靈活處理各類數(shù)據(jù)操作，訓(xùn)練時間可縮短至分鐘級。

全棧根原創(chuàng)

實現(xiàn)0開源依賴

任度大模型的數(shù)推分離雙網(wǎng)絡(luò)架構(gòu)，最大的意義在于，從底層算法框架到上層應(yīng)用都是全技術(shù)棧自主研發(fā)的成果，未使用任何開源代碼和框架。

“我們自主研發(fā)了機器學(xué)習(xí)算法框架和模型架構(gòu)，這使得我們的任何想法和創(chuàng)新都可以不受限制地去實踐，讓任度大模型具備實時學(xué)習(xí)客戶數(shù)據(jù)的能力。在國內(nèi)外，能做到這一點的企業(yè)為數(shù)不多�！焙味髋鄰娬{(diào)。

任度大模型目前擁有2.1B和9B兩個版本，其中多模態(tài)9B參數(shù)版本在全球評測中，已躋身全球大模型行業(yè)第一梯隊。在多項國內(nèi)外評測中，任度9B模型與百億千億參數(shù)大模型的對比中脫穎而出，以更少參數(shù)實現(xiàn)領(lǐng)先性能。同時，2.1B參數(shù)版本在2024年9月的MMLU評估中，綜合評分超越了Gemma-7B、LLaMA2-34B等知名大模型，性參比更是超越了包括GPT-4o、Phi-3、Qwen2-7B、Llama3.1等國際頂尖大模型，以小參數(shù)實現(xiàn)了與百億、千億級別模型相媲美的性能。

任度大模型在訓(xùn)練與推理過程中的算力成本顯著降低，僅為同等大型模型的1/5—1/10以及1/2—1/4。在所有評測中，性能參比（大模型能力分?jǐn)?shù)/大模型參數(shù)）幾乎全部處在前列，大部分是第一。

“雙腦”大模型一體機

一小時成為專屬業(yè)務(wù)專家

目前，雙網(wǎng)絡(luò)架構(gòu)的數(shù)推分離大模型已應(yīng)用在任度“雙腦”大模型一體機中，即將投放市場，解決大模型落地痛點。

何恩培表示，數(shù)推分離的雙腦模式，解決了企業(yè)數(shù)據(jù)離場訓(xùn)練、向量效果有限以及人才投入高等難題，實現(xiàn)本地實時學(xué)習(xí)，一小時就能成為專屬業(yè)務(wù)專家。企業(yè)數(shù)據(jù)在本地訓(xùn)練，無需上傳至公有云，保障了數(shù)據(jù)隱私安全。根原創(chuàng)和高性參比，解決了企業(yè)在應(yīng)用大模型中的高硬件投入、高能耗以及技術(shù)安全和軟件漏洞等顧慮。

預(yù)訓(xùn)練之后的模型如何實現(xiàn)少量數(shù)據(jù)實時學(xué)習(xí)和訓(xùn)練模式，是全球大模型領(lǐng)域都在苦苦探索的課題。任度大模型獨辟蹊徑，何恩培坦言：“我們僥幸走通了這條路。我們沒有從主流大模型發(fā)展遇到的問題中尋找突破機會，而是從公司誕生起就走在這條路上，走了20多年，也曾感到孤獨和不自信，但看到大家都向這個方向走來，才確信自己走的沒錯，直到我們大模型評測進入第一梯隊，才知道我們的技術(shù)路線也不差�！�

大模型技術(shù)新里程碑：任度雙網(wǎng)絡(luò)架構(gòu)實現(xiàn)數(shù)推分離