飛象網(wǎng)訊 (一飛/文)5月13日,在零一萬物成立一周年之際,零一萬物 CEO 李開復博士攜帶千億參數(shù) Yi-Large 閉源模型正式亮相,正式進軍全球 SOTA 頂級大模型之首,在斯坦福最新的 AlpacaEval 2.0 達到全球大模型 Win Rate 第一。除此之外,零一萬物將早先發(fā)布的 Yi-34B、Yi-9B/6B 中小尺寸開源模型版本升級為 Yi-1.5 系列,每個版本達到同尺寸中 SOTA 性能最佳。
在國際領先的底座模型之上,零一萬物本月同步官宣了從應用到生態(tài)的產(chǎn)品線:2C 生產(chǎn)力應用 “萬知” 正式提供服務、賦能 2B 生態(tài)的 “API 開放平臺” 今日全球上線。借一周年發(fā)布會,零一萬物公開了開源閉源雙軌大模型的戰(zhàn)略布局,低調許久的創(chuàng)始人李開復也首度現(xiàn)身說法,親自拆解發(fā)展藍圖背后的戰(zhàn)略思路。
在中國大模型進入第二年之際,李開復博士提出,國內大模型賽道的競跑從狂奔到長跑,終局發(fā)展將取決于各個選手如何有效達到 “TC-PMF”(Product-Market-Technology-Cost Fit,技術成本 X 產(chǎn)品市場契合度)。大模型從訓練到服務都很昂貴,算力緊缺是賽道的集體挑戰(zhàn),行業(yè)應當共同避免陷入不理性的 ofo 式流血燒錢打法,讓大模型能夠用健康良性的 ROI 蓄能長跑,奔赴屬于中國的 AI 2.0 變革。
零一萬物以全球為目標市場,基于全球領先的 Yi 系列模型做出符合 TC-PMF 的B端和C端優(yōu)質應用,進而與行業(yè)攜手推進 AI 2.0 生態(tài)。中國市場的AI普惠必然到來,零一萬物將結合國際經(jīng)驗,打造驚艷的國內 AI-First 應用生態(tài),實現(xiàn)“讓通用人工智能普惠各地,人人受益”的公司愿景。
Yi-Large 進擊全球SOTA大模型極品,Win Rate全球第一
去年11月,零一萬物所發(fā)布的 Yi-34B 以開源社區(qū)“甜點級”尺寸就在權威榜單中超越了 Llama2-70B、Falcon-180B等大幾倍的模型,成為當時世界范圍內開源最強基礎模型之一,引發(fā)國際開發(fā)者社區(qū)的熱烈回響和采用,在國際開源圈破圈建立了全球化的技術品牌信任感。
半年后,零一萬物正式發(fā)布千億參數(shù)規(guī)模的 Yi-Large,在第三方權威評測中,零一萬物 Yi 模型在全球頭部大模型的中英文雙語 PK 上表現(xiàn)出色。最新出爐的斯坦福評測機構 AlpacaEval 2.0 經(jīng)官方認證的模型排行榜上,Yi-Large 模型的英語能力主要指標 LC Win Rate(控制回復的長度) 排到了世界第二,僅次于 GPT-4 Turbo,Win Rate 更排到了世界第一,此前國內模型中僅有 Yi 和 Qwen 曾經(jīng)登上此榜單的前 20。
斯坦福 AlpacaEval 2.0 Verified 認證模型類別,英語能力評測(2024年5月12日)
在中文能力方面,SuperCLUE 更新的四月基準表現(xiàn)中,Yi-Large 也位列國產(chǎn)大模型之首,Yi-Large 的綜合中英雙語能力皆展現(xiàn)了卓越的性能,可謂正式晉升全球大模型的“極品”。
在更全面的大模型綜合能力評測中,Yi-Large 多數(shù)指標超越 GPT4、Claude3、Google Gemini 1.5 等同級模型,達到首位。在通用能力、代碼生成、數(shù)學推理、指令遵循方面都取得了優(yōu)于全球領跑者的成績,穩(wěn)穩(wěn)躋身世界范圍內的第一梯隊。隨著各家大模型能力進入到力求對標GPT4的新階段,大模型評測的重點也開始由簡單的通用能力轉向數(shù)學、代碼等復雜推理能力。在針對代碼生成能力的 HumanEval、針對數(shù)學推理能力的 GSM-8K和 MATH、以及針對領域專家能力的GPQA等評測集上,Yi-Large也取得了具有絕對優(yōu)勢的成績。
國際中英文評測數(shù)據(jù)集(2024年5月12日)
值得注意的是,上述評測均是在零樣本(0-shot)或少樣本(4-shot/5-shot/8-shot)的前提下進行。在零樣本或少樣本的情況下,模型必須依賴于其在大量數(shù)據(jù)上訓練時獲得的知識和推理能力,而不是簡單地記憶訓練數(shù)據(jù)。這最大程度上避免了刷分的可能性,能更加客觀真實地考驗模型的深層次理解和推理能力。
此外,從行業(yè)落地的角度來看,理解人類指令、對齊人類偏好已經(jīng)成為大模型不可或缺的能力,指令遵循(Instruction Following)相關評測也越發(fā)受到全球大模型企業(yè)重視。斯坦福開源評測項目 AlpacaEval 和伯克利 LM-SYS 推出的 MT-bench 是兩組英文指令遵循評測集,AlignBench 則是由清華大學的團隊推出的中文對齊評測基準。在中外權威指令遵循評測集中,Yi-Large 的表現(xiàn)均優(yōu)于國際前五大模型。
發(fā)布會上,李開復博士還宣布,零一萬物已啟動下一代 Yi-XLarge MoE 模型訓練,將沖擊 GPT-5 的性能與創(chuàng)新性。從 MMLU、GPQA、HumanEval、MATH 等權威評測集中,仍在初期訓練中的 Yi-XLarge MoE 已經(jīng)與 Claude-3-Opus、GPT4-0409 等國際廠商的最新旗艦模型互有勝負,訓練完成后的性能令人期待。
Yi-XLarge 初期訓練中評測(2024年5月12日)
Yi-1.5 開源全面升級,開源閉源雙軌完善生態(tài)策略
此次發(fā)布會上,零一萬物Yi系列開源模型也迎來全面升級,Yi-1.5 分為 34B、9B、6B 三個版本,且提供了 Yi-1.5-Chat 微調模型可供開發(fā)者選擇。從評測數(shù)據(jù)來看,Yi-1.5 系列延續(xù)了 Yi 系列開源模型的出色表現(xiàn),數(shù)學邏輯、代碼能力全面增強的同時,語言能力方面也保持了原先的高水準。開源地址:Hugginf Face https://huggingface.co/01-ai 及魔搭社區(qū) https://www.modelscope.cn/organization/01ai。
經(jīng)過微調后的 Yi-1.5-6B/9B/34B-Chat 在數(shù)學推理、代碼能力、指令遵循等方面更上一層樓。Yi-1.5-6B/9B-Chat 在 GSM-8K 和 MATH 等數(shù)學能力評測集、HumanEval 和 MBPP 等代碼能力評測集上的表現(xiàn)遠同參數(shù)量級模型,也優(yōu)于近期發(fā)布的 Llama-3-8B-Instruct;在 MT-Bench、AlignBench、AlpacaEval 上的得分在同參數(shù)量級模型中也處于領先位置。
Yi-1.5-34B-Chat 在數(shù)學能力同樣保持著大幅領先,代碼能力與超大參數(shù)量級的 Mixtral-8x22B-Instruct-v0.1 持平,指令遵循方面更是在 MT-Bench、Alignbench、ArenaHard、AlpacaEval2.0 等多個權威評測集上完全超越了 Mixtral-8x22B-Instruct-v0.1。
去年零一萬物選擇以開源首發(fā) Yi 系列模型,其優(yōu)異的性能受到國際開發(fā)者的高度認可。Yi 開源版本2023年11月上線首月,便占據(jù)開源社區(qū)近5成熱門模型排行,發(fā)布一個月后 Yi-34B 被 Nvidia 大模型 Playground 收錄,成為國內唯一獲選模型,也建立了 Yi 模型面向國際的科技品牌信任度。
以開源模型構建生態(tài),以閉源模型展開 AI-First 探索,開源閉源雙軌模型策略使得零一萬物構建起了生態(tài)體系。開源模型服務于全球的科研院校、學生、開發(fā)者、創(chuàng)業(yè)者人群,推動百花齊放的應用滋長;API 開放平臺提供企業(yè)商用,協(xié)助企業(yè)實踐 AI 2.0 的智能化轉型。同時,零一萬物以優(yōu)異的閉源模型能力,正在積極探索與世界 500 強企業(yè)的大型戰(zhàn)略合作。開源閉源相互助力,確保零一萬物本著 TC-PMF 的方法論,以更穩(wěn)健的步伐奔向 AGI。
Yi 大模型 API 開放平臺全球首發(fā)
全球開發(fā)者們對開源模型的品牌認可,成為零一萬物 API 服務的強有力支撐。今天,零一萬物宣布面向國內市場一次性發(fā)布了包含 Yi-Large、Yi-Large-Turbo、Yi-Medium、Yi-Medium-200K、Yi-Vision、Yi-Spark 等多款模型 API 接口,保證客戶能夠在不同場景下都能找到最佳性能、最具性價比的方案,Yi API Platform 英文站同步對全球開發(fā)者開放試用申請。
Yi 大模型 API 開放平臺 (https://platform.lingyiwanwu.com/)
其中,千億參數(shù)規(guī)模的 Yi-Large API 具備超強文本生成及推理性能,適用于復雜推理、預測,深度內容創(chuàng)作等場景;Yi-Large-Turbo API 則根據(jù)性能和推理速度、成本,進行了平衡性高精度調優(yōu),適用于全場景、高品質的推理及文本生成等場景。
Yi-Medium API 優(yōu)勢在于指令遵循能力,適用于常規(guī)場景下的聊天、對話、翻譯等場景;如果需要超長內容文檔相關應用,也可以選用 Yi-Medium-200K API,一次性解讀20萬字不在話下;Yi-Vision API 具備高性能圖片理解、分析能力,可服務基于圖片的聊天、分析等場景;Yi-Spark API 則聚焦輕量化極速響應,適用于輕量化數(shù)學分析、代碼生成、文本聊天等場景。
小胰寶是一個在胰腺腫瘤患者群體中廣受關注的公益項目,正在尋求以開源方式運營和共建。通過問答的形式,小胰寶 AI 小助手可以 7x24 小時為患者介紹綜合治療知識。這一助手背后的技術支持正是零一萬物的 Yi 大模型。使用 Yi API 調用 AI 大模型后,小胰寶突破了胰腺腫瘤治療信息壁壘,可將胰腺癌治療路線圖和治療方案精準且系統(tǒng)性地呈現(xiàn)給胰腺腫瘤病友。目前,該公益項目已經(jīng)幫助了 3000 多位胰腺腫瘤病友,AI 小助手在病歷和報告解讀的準確率也有顯著提升,已被某國家級權威三甲醫(yī)院推薦。
而這也是零一萬物的愿景所及之處。能否實現(xiàn)價值落地是一切技術的試金石,模型能力不應當是空中樓閣,大模型公司不僅要放眼 AGI,更重要的是要切實推動模型進入各行各業(yè)、進入日常生活,讓每個人都能享受到 AI 2.0所帶來的便利。
萬知 “AI-First 版 Office” 幫你找、讀、寫
近期上線的一站式 AI 工作站“萬知”(wanzhi.com 微信小程序“萬知AI”)則是零一萬物基于世界領先的閉源模型 Yi-Large 所做出的 “模應一體” 2C 生產(chǎn)力應用。依托零一萬物閉源模型的強大能力,萬知在通用問答、多模態(tài)、長文本方面都有著不俗表現(xiàn)。更令人驚喜的是,萬知成為業(yè)內第一款真正實踐了“AI-First”理念、創(chuàng)新性地將模型能力與應用場景完美融合的 2C 應用產(chǎn)品。
以往發(fā)布的大模型 2C 應用大多定位于“聊天機器人”,萬知則針對找、讀、寫三大場景,將通用問答場景作為交互方式,搭配長文檔解讀、PPT 制作等功能,打造PC/手機多端協(xié)同、覆蓋工作生活全場景的 “AI-First 版 Office”,為用戶提供 AI 2.0 時代顛覆性的辦公體驗,創(chuàng)始人李開復也親自擔任“首席體驗官” 聆聽網(wǎng)友反饋。
大模型賽道從狂奔到長跑,需有達到 TC-PMF 的方法論
在移動互聯(lián)網(wǎng)的鼎盛時期,PMF(Product-Market Fit,產(chǎn)品市場契合)曾是眾多初創(chuàng)企業(yè)追求的核心目標。然而,隨著大語言模型成為新的創(chuàng)業(yè)焦點,僅僅追求產(chǎn)品與市場契合遠遠不夠。
兩個時代在創(chuàng)業(yè)基礎設施層面存在著決定性的差異——在移動互聯(lián)網(wǎng)時代,用戶規(guī)模增長所帶來的邊際成本很低,但是在大模型時代,模型訓練和推理成本構成了每一個創(chuàng)業(yè)公司必須要面臨的增長陷阱。用戶增長需要優(yōu)質的應用,而優(yōu)質應用離不開強大的基座模型,強大基座模型的背后往往是高昂的訓練成本,接著還需要考慮隨用戶規(guī)模增長的推理成本。這一普惠點如何達成、何時到來變得越發(fā)難以捉摸。
李開復博士認為,PMF 這一概念已經(jīng)不能完整定義以大模型為基礎的 AI-First 創(chuàng)業(yè),應當引入 Technology(技術)與 Cost(成本)組成四維概念——TC-PMF!白 Technology-Cost Product-Market-Fit(TC-PMF),技術成本 X 產(chǎn)品市場契合度,尤其推理成本下降是個‘移動目標’,這比傳統(tǒng) PMF 難上一百倍! 李開復博士表示。
隨著高性能計算硬件的迭代和模型優(yōu)化技術的普及,大模型推理成本的大幅度下降已經(jīng)成為可預見的趨勢所在。在普惠點終將到來的前提下,能夠率先察覺、并達到 TC-PMF 這一普惠點的玩家無疑會占盡先機。要做到這一點,模型、AI Infra、應用這“三位一體” 的優(yōu)異能力缺一不可。基于此,零一萬物將 “模基共建”、“模應一體”列為公司的頂層核心戰(zhàn)略,在人才密度和協(xié)作方式上,也快速打磨出一整套能夠媒合不同專業(yè)的精英人才進行跨界共創(chuàng)的組織能力。
;步ǎ阂劳蠥I Infra能力走出增長陷阱
在國內大模型賽道向前狂奔的第一年,模型結構成為行業(yè)焦點,鮮少有人注意到 AI Infra 的重要性。
一個不容忽視的事實在于,中國大模型公司沒有美國大廠的GPU數(shù)量,所以必須采取更務實的戰(zhàn)術和戰(zhàn)略。AI Infra(AI Infrastructure 人工智能基礎架構技術)主要涵蓋大模型訓練和部署提供各種底層技術設施,在李開復博士看來,自研 AI Infra 是零一萬物必然要走過的路,零一萬物也自成立起便將 AI Infra 設立為重要方向。
“第一年大模型行業(yè)在卷算法,第二年大家在卷算法 + Infra。在國外一線大廠,最高效訓練模型的方式是算法與 Infra 共建,不僅僅關注模型架構,而是從優(yōu)化底層訓練方法出發(fā)!绷阋蝗f物模型訓練負責人黃文灝表示,“這對大模型人才的知識能力提出了全新要求!
目前來看,模型研究人員只關注算法而忽視 AI Infra 是國內大模型行業(yè)現(xiàn)狀。而零一萬物選擇跟國際一線梯隊齊平,模型團隊和 AI Infra 團隊高度共建,人數(shù)比為1比1!拔覀円笞瞿P脱芯康娜艘欢ㄒ鲁恋怼,具備工程能力。這也對齊我們倡導的 TC-PMF 的方法論。”黃文灝說。
零一萬物著力于實現(xiàn)計算效率的優(yōu)化。據(jù)了解,零一萬物 Yi-Large 訓練環(huán)節(jié)的平均 MFU已顯著超越業(yè)內平均水平。多方面優(yōu)化后,零一萬物千億參數(shù)模型的訓練成本同比降幅達一倍之多。
今年3月,零一萬物推出了基于全導航圖的新型向量數(shù)據(jù)庫笛卡爾(Descartes),其搜索內核已包攬權威榜單 ANN-Benchmarks 6 項數(shù)據(jù)集評測第一名。同樣于3月,零一萬物成功在 Nvidia GPU 上進行了千億參數(shù)模型 Yi-Large 的端到端 FP8 訓練和推理,成為全球率先落地該技術的三個案例之一。
底層技術的突破帶來了優(yōu)化成本的新可能。接入自研向量數(shù)據(jù)庫后,零一萬物的C端應用在保證響應速率與準確性的前提下,成本大幅降至了原用第三方向量數(shù)據(jù)庫時的 18%。在端到端 FP8 訓練的前提下,零一萬物能夠采用技術和工程手段得到與更高精度類型相媲美的訓練結果,與此同時模型訓練所需的顯存占用、通訊帶寬都極大降低。
訓練和推理成本的下降固然已經(jīng)成為行業(yè)趨勢,但在達標 TC-PMF 的激烈角逐中,AI Infra 優(yōu)化使得零一萬物能夠比行業(yè)更快、更精準地抵達普惠點!澳;步ā彼鶐淼慕^對領先的成本優(yōu)勢,為零一萬物爭取到了更多時間,推出價廉物美的 API 和開源模型,進一步催化更多的 AI-First 應用生態(tài)。
模應一體:初步跑通TC-PMF,全球市場打磨造血能力
國內大模型領域陷入混戰(zhàn)的 2023 年初,各式各樣的評測榜單鋪天蓋地,躋身各大榜單 TOP 的模型不在少數(shù)。大模型進入第二年,行業(yè)進入更為現(xiàn)實的商業(yè)落地階段,客戶/用戶都會按照應用側所展現(xiàn)的能力,用腳投票。如何基于基座模型能力,盡可能提升應用效果,是追趕 TC-PMF 的重要課題。
基座模型、AI Infra、API、C 端應用,全棧式業(yè)務部署,使得零一萬物能夠以更全面的視野來看待大模型時代的增長陷阱,也為零一萬物在應用層的商業(yè)落地帶來了更大的發(fā)揮空間。無論是 2C 還是 2B,“模應一體”的思路始終貫穿零一萬物的商業(yè)實踐——模型團隊與產(chǎn)品團隊緊密結合,摸清模型能力邊界,針對某一應用場景去優(yōu)化專有模型,并最終實現(xiàn)全球范圍內的彎道超車。
“AI-First 不等于 AI Only,”零一萬物生產(chǎn)力產(chǎn)品負責人曹大鵬表示,“模型、工程、算法、產(chǎn)品要基于場景深度結合,模型長板匹配剛需高價值場景,構建AI-First 工作流,追求極致體驗、一站式解決用戶問題,而不是單純秀模型能力肌肉,拿錘子找釘子。”
“萬知”正是這一理念的最好證明。“找、讀、寫” 職場人的三大需求精準切入辦公場景剛需,AI 助力之下的文件撰寫提效超 10 倍,低專業(yè)判斷的日常白領任務節(jié)約時間超8成,聯(lián)網(wǎng)生成回答、PPT 速率遠超行業(yè)平均水平。萬知還創(chuàng)新性地將多模態(tài)能力與PDF文檔閱讀場景相結合,解決PDF文檔中大量圖表無法識別的痛點。這一功能的實現(xiàn)離不開高性能的場景專屬模型——多模態(tài)模型 Yi-VL-Plus 在視覺模型盲測平臺Vision Arena上的評測成績始終保持全球領先。
在行業(yè)普遍追求大項目、快增長的背景下,零一萬物選擇了冷靜克制的發(fā)展路徑,更關注能造血的“高質量增長”。在 AI 1.0 時代,人工智能還未展現(xiàn)出高泛化性和涌現(xiàn)能力,針對頭部客戶做私有化部署的模式成為主流,但時間已經(jīng)證明,偏項目制的重交付模式所帶來的營收增長存在上限,其可持續(xù)性挑戰(zhàn)嚴峻。
在零一萬物 API 平臺負責人藍雨川看來,已經(jīng)在海外充分得到商業(yè)模式驗證的 API 會是更好的選擇。作為標準化產(chǎn)品的 API 復用性更強,商業(yè)模式也更趨近于云服務。比起 AI 1.0 定制化重交付的模式,API 能夠更快穿透千行百業(yè),藍雨川表示,零一萬物提供世界第一梯隊的模型、最佳性價比的方案,聚焦企業(yè)如何用 AI 為自身業(yè)務帶來增長。
API 與萬知等C端應用共同構建起了零一萬物的商業(yè)落地版圖,也成為零一萬物追逐 TC-PMF 的重要實踐。在李開復博士的規(guī)劃中,零一萬物將作為具有前瞻性的務實者一步步實現(xiàn)落地,并最終達到 TC-PMF,打造出 AI 2.0 時代的超級應用,實現(xiàn)讓通用人工智能普惠各地,人人受益。
在普惠各地的愿景下,海外市場是零一萬物不可或缺的一部分。值得一提的是,無論是B端API 還是C端應用,零一萬物都已開啟海外的落地嘗試。
去年9月開始,零一萬物便聚焦生產(chǎn)力、社交賽道于海外應用展開探索,已有 4 款產(chǎn)品陸續(xù)上線。目前零一萬物海外生產(chǎn)力應用總用戶接近千萬,營收今年預期過億人民幣,已實踐出大模型 2C 產(chǎn)品的 TC-PMF——產(chǎn)品 ROI 為1,初步擺脫燒錢獲客,成功驗證了 AI-First 產(chǎn)品的用戶訂閱制商業(yè)模式。API 也將面向海外推出 Yi-Large、Yi-Large-RAG、Yi-Medium 等API,還未上線便已在開發(fā)者群體里引發(fā)關注。
由于海外市場與國內市場在付費意愿、市場環(huán)境方面存在差異,目前萬知采取限時免費模式。但據(jù)曹大鵬介紹,后續(xù)萬知會結合產(chǎn)品發(fā)展和用戶反饋推出收費模式。
TC-PMF 所帶來的 AI 普惠點終將來臨,這一次市場競爭將不再支持共享單車式的燒錢大戰(zhàn),采用以資金“跑馬圈地”商業(yè)模式的企業(yè)必然會率先力竭,冷靜判斷行業(yè)發(fā)展進程,腳踏實地打磨TC-PMF 才是更符合長期主義的路線。這場較量將包含模型、AI Infra、產(chǎn)品應用等三位一體多個方面,零一萬物已經(jīng)做足準備。
李開復博士表示,ofo 式的補貼邏輯不再適用于 AI 2.0,希望大模型賽道的競爭聚焦于達成 TC-PMF。零一萬物將以全球為目標市場,以更從容的姿態(tài)迎接必然被點燃的中國普惠AI市場。