隨著 AI 技術(shù)的快速發(fā)展,AI 已從過去的感知 AI、生成式 AI,快速邁入 Agentic AI 時代。AI 正在進(jìn)化出端到端的自主決策和執(zhí)行能力,走向核心生產(chǎn)環(huán)節(jié)。

火山引擎總裁 譚待
今天,在 FORCE LINK AI 創(chuàng)新巡展·杭州站,火山引擎公布了模型、Agent工具、云基礎(chǔ)設(shè)施的最新進(jìn)展,旨在幫助企業(yè)更快、更省地構(gòu)建和部署Agent應(yīng)用:發(fā)布豆包1.5·深度思考模型,升級豆包·文生圖模型3.0、豆包·視覺理解模型。同時,面向Agent服務(wù),發(fā)布OS Agent解決方案、GUI Agent大模型——豆包1.5·UI-TARS模型;面向大規(guī)模推理,發(fā)布AI云原生·ServingKit推理套件。
截至2025年3月底,豆包大模型日均tokens調(diào)用量已超過12.7萬億,是2024年12月的3倍,是一年前剛剛發(fā)布時的106倍。IDC報(bào)告顯示,2024年中國公有云大模型調(diào)用量激增,火山引擎以46.4%的市場份額位居中國市場第一。


深度思考模型能夠讓 AI 模擬人類的思維過程,對復(fù)雜問題進(jìn)行精準(zhǔn)分析和邏輯推導(dǎo)。
全新發(fā)布的豆包1.5·深度思考模型,在數(shù)學(xué)、代碼、科學(xué)等專業(yè)領(lǐng)域推理任務(wù)中表現(xiàn)出色,已經(jīng)達(dá)到或接近全球第一梯隊(duì)水平;在創(chuàng)意寫作等非推理任務(wù)中,模型也展示出優(yōu)秀的泛化能力,能夠勝任更廣泛和復(fù)雜的使用場景。

為了提升模型的通用能力,模型團(tuán)隊(duì)優(yōu)化了數(shù)據(jù)處理策略,把可驗(yàn)證數(shù)據(jù)與創(chuàng)意性數(shù)據(jù)進(jìn)行融合處理,滿足各類任務(wù)的需求。此外,大規(guī)模強(qiáng)化學(xué)習(xí)是訓(xùn)練推理模型的關(guān)鍵技術(shù),通過采用創(chuàng)新的雙軌獎勵機(jī)制,兼顧“對錯分明”和“見仁見智”的任務(wù),有效實(shí)現(xiàn)了算法的可靠優(yōu)化。
豆包1.5·深度思考模型采用 MoE 架構(gòu),總參數(shù)為200B,激活參數(shù)僅20B,具備顯著的訓(xùn)練和推理成本優(yōu)勢;诟咝惴,豆包1.5·深度思考模型在提供行業(yè)極高并發(fā)承載能力的同時,實(shí)現(xiàn)20毫秒極低延遲。
在解決生活生產(chǎn)中的具體問題時,大模型要能夠查詢互聯(lián)網(wǎng)信息,進(jìn)行多輪搜索和思考。與其他推理模型“先搜索再思考”的模式不同,豆包APP 基于豆包1.5·深度思考模型進(jìn)行了定向訓(xùn)練,可以“邊想邊搜”。
例如,讓豆包APP 推薦露營裝備:一對夫妻帶兩個孩子去露營,溫度低,有雨,希望把裝備買齊,預(yù)算4,000元以內(nèi),還要兼顧便攜性和安全性。豆包1.5·深度思考模型可以拆解每個具體需求的注意事項(xiàng),規(guī)劃信息,然后經(jīng)過3輪搜索,給出了預(yù)算范圍內(nèi)、細(xì)致周到的推薦。
此外,豆包1.5·深度思考模型還具備視覺理解能力,可以像人類一樣,不光基于文字思考,更能基于所見畫面思考,思考更立體,讓模型同時擁有“大腦”和“眼睛”。 更好的模型性能、更低的延遲、加上視覺推理能力,將為深度思考模型打開更廣泛的應(yīng)用空間、解決更復(fù)雜的問題。即日起,企業(yè)用戶可以在火山方舟平臺使用豆包1.5·深度思考模型。

此次全新升級的豆包·文生圖模型3.0,能夠?qū)崿F(xiàn)更好的文字排版表現(xiàn)、實(shí)拍級的圖像生成效果,以及2K 的高清圖片生成方式?梢詮V泛應(yīng)用于影視、海報(bào)、繪畫、玩偶設(shè)計(jì)等營銷、電商、設(shè)計(jì)場景。

小字與長文本生成、 排版更美觀
在最新的文生圖領(lǐng)域權(quán)威榜單 Artificial Analysis 競技場中,豆包·文生圖3.0模型已超越業(yè)界諸多主流模型,排名全球第一梯隊(duì)。


新版本的豆包·視覺理解模型具備更強(qiáng)的視覺定位能力,支持多目標(biāo)、小目標(biāo)、通用目標(biāo)的框定位和點(diǎn)定位,并支持定位計(jì)數(shù)、描述定位內(nèi)容、3D 定位?蓱(yīng)用于線下門店的巡檢場景、GUI agent、機(jī)器人訓(xùn)練、自動駕駛訓(xùn)練等。 同時,新版本在視頻理解能力上也有大幅提升,比如記憶、總結(jié)理解、速度感知、長視頻理解等。豆包·視覺理解模型結(jié)合向量搜索,可直接對視頻進(jìn)行語義搜索,廣泛適用于安防、家庭看護(hù)等商業(yè)化場景。

更強(qiáng)的模型為我們打開了更廣闊的應(yīng)用空間。未來,AI Agent 將同時在“應(yīng)用Agent”和“OS Agent”兩個方向上并行發(fā)展。
應(yīng)用 Agent 具備更強(qiáng)的專業(yè)性,如客服 Agent、數(shù)據(jù) Agent、代碼 Agent等,可以專注于完成特定領(lǐng)域的任務(wù)。
比如在代碼 Agent 領(lǐng)域,相比于傳統(tǒng)的 AI 插件產(chǎn)品,國內(nèi)首個 AI IDE(AI原生的集成開發(fā)環(huán)境工具)——Trae 可以讓開發(fā)者和 AI 更智能的協(xié)作,實(shí)現(xiàn)軟件開發(fā)的交付化(交付軟件而不僅是代碼)、智能化(意圖理解-自主規(guī)劃-調(diào)用工具-自主開發(fā))、協(xié)作化(與用戶在各個維度上進(jìn)行協(xié)作)。
OS Agent 則擁有跨場景的通用性和靈活性,能夠直接操作瀏覽器、電腦、手機(jī)或其他 Agent,完成復(fù)雜任務(wù)。今年 Manus 等通用 Agent 的火爆也點(diǎn)燃了市場對 OS Agent 的熱情。
大會上,火山引擎正式發(fā)布 OS Agent 解決方案,未來兩周將陸續(xù)上線火山引擎官網(wǎng)。
該解決方案通過火山引擎 veFaaS 平臺對豆包大模型能力進(jìn)行封裝,可以讓企業(yè)和開發(fā)者輕松構(gòu)建輕量級的 Code use 和 Browser use。而針對任務(wù)相對復(fù)雜的 Computer Use 和 Mobile Use Agent,則可以通過 ECS 或云手機(jī)等調(diào)用豆包1.5·UI-TARS 模型,驅(qū)動圖形用戶界面交互,精準(zhǔn)識別用戶的任務(wù)需求,進(jìn)行感知、自主推理并準(zhǔn)確行動。
想做出好的 Agent 同樣離不開好的大模型。針對復(fù)雜的 OS Agent,火山引擎正式發(fā)布 GUI Agent 大模型——豆包1.5·UI-TARS 模型。該模型將屏幕視覺理解、邏輯推理、界面元素定位和操作整合在單一模型中,突破了傳統(tǒng)自動化工具依賴預(yù)設(shè)規(guī)則的局限。目前,豆包1.5·UI-TARS 模型已在火山方舟平臺上線。

好的模型和工具能夠加速 Agent 的落地,但 Agent 也會帶來更大量的推理消耗,因此 AI 時代需要更好的云原生架構(gòu)來支持。
為此,火山引擎推出 ServingKit 推理套件,幫助企業(yè)實(shí)現(xiàn)模型的快速部署、推理優(yōu)化、運(yùn)維可觀測。
ServingKit 推理套件可在2分鐘內(nèi)完成671B DeepSeek R1下載和預(yù)熱,13秒完成推理引擎的加載。
同時,為了降低推理過程中的時延、提高資源利用率,火山引擎 EIC 將 KV cache 命中率提高了10倍,在100% cache 命中場景下 TPS 吞吐量可提高至5倍以上;而通過對算子、AI 網(wǎng)關(guān)、VKE 編排調(diào)度的優(yōu)化和升級,可以大幅度降低 GPU 消耗。