<samp id="5nwrz"></samp>

<samp id="5nwrz"><font id="5nwrz"></font></samp>

首頁|必讀|視頻|專訪|運(yùn)營(yíng)|制造|監(jiān)管|大數(shù)據(jù)|物聯(lián)網(wǎng)|量子|元宇宙|智能汽車|特約記者
手機(jī)|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計(jì)算|芯片|報(bào)告|智慧城市|移動(dòng)互聯(lián)網(wǎng)|會(huì)展

首頁 >> 人工智能 >> 正文

北大清華等聯(lián)合發(fā)布 LLaVA-o1：首個(gè)自發(fā)性視覺AI模型，推理計(jì)算Scaling新思路

2024年11月19日 13:59 IT之家作者：故淵

由北京大學(xué)、清華大學(xué)、鵬城實(shí)驗(yàn)室、阿里巴巴達(dá)摩院以及理海大學(xué)（Lehigh University）組成的研究團(tuán)隊(duì)，最新推出了 LLaVA-o1，這是首個(gè)具備自發(fā)性（Spontaneous，具體解釋可參考文末）、類似于 GPT-o1 的系統(tǒng)性推理視覺語言模型。

UP 主：唐國(guó)梁 Tommy

LLaVA-o1 是一種新型的視覺語言模型（VLM），其設(shè)計(jì)目標(biāo)是進(jìn)行自主的多階段推理。

LLaVA-o1 擁有 110 億個(gè)參數(shù)，基于 Llama-3.2-Vision-Instruct 模型開發(fā)，設(shè)計(jì)了總結(jié)（summary）、描述（caption）、推理（reasoning）和結(jié)論（conclusion）4 個(gè)推理階段。

該模型使用名為 LLaVA-o1-100k 的數(shù)據(jù)集進(jìn)行微調(diào)，該數(shù)據(jù)集源自視覺問答（VQA）來源和由 GPT-4o 生成的結(jié)構(gòu)化推理注釋。

LLaVA-o1 采用了階段級(jí)束搜索（stage-level beam search）的推理時(shí)間 Scaling 技術(shù)，能夠在每個(gè)推理階段生成多個(gè)候選答案，并選取最佳答案。

該模型在處理復(fù)雜任務(wù)時(shí)具備較強(qiáng)的能力，在復(fù)雜視覺問答任務(wù)中，可以突破傳統(tǒng)視覺語言模型的局限性。

與基礎(chǔ)模型相比，LLaVA-o1 在多模態(tài)推理基準(zhǔn)測(cè)試中提高了 8.9% 的性能，超過了許多大型和閉源的競(jìng)爭(zhēng)對(duì)手。

LLaVA-o1 的推出填補(bǔ)了文本和視覺問答模型之間的重要空白，在多個(gè)基準(zhǔn)測(cè)試中的優(yōu)異表現(xiàn)，特別是在數(shù)學(xué)和科學(xué)視覺問題的推理領(lǐng)域，展示了結(jié)構(gòu)化推理在視覺語言模型中的重要性。

自發(fā)性人工智能（Spontaneous AI）是指能夠模擬動(dòng)物自發(fā)行為的人工智能系統(tǒng)。這種技術(shù)的研究主要集中在如何通過機(jī)器學(xué)習(xí)和復(fù)雜的時(shí)間模式設(shè)計(jì)出具有自發(fā)行為的機(jī)器人或智能系統(tǒng)。

編輯：章芳

飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容，凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有，未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像，違者必究。對(duì)于經(jīng)過授權(quán)可以轉(zhuǎn)載，請(qǐng)必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性，并完整標(biāo)注作者信息和飛象網(wǎng)來源。
2.凡注明“來源：XXXX”的作品，均轉(zhuǎn)載自其它媒體，在于傳播更多行業(yè)信息，并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問題，請(qǐng)?jiān)谙嚓P(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系，我們將第一時(shí)間予以處理。
本站聯(lián)系電話為86-010-87765777，郵件后綴為cctime.com，冒充本站員工以任何其他聯(lián)系方式，進(jìn)行的“內(nèi)容核實(shí)”、“商務(wù)聯(lián)系”等行為，均不能代表本站。本站擁有對(duì)此聲明的最終解釋權(quán)。

相關(guān)新聞

·中國(guó)移動(dòng)副總經(jīng)理張冬：引領(lǐng)5G A²融合創(chuàng)新..	·李彥宏：無代碼工具"秒噠"發(fā)布不到3天，超過..
·數(shù)智江蘇：推進(jìn)萬兆+AI建設(shè)，助力新質(zhì)生產(chǎn)力打造	·第二十一屆中國(guó)國(guó)際半導(dǎo)體博覽會(huì)在京開幕
·機(jī)構(gòu)發(fā)布Q3中東智能手機(jī)銷量榜：中國(guó)廠商占據(jù)TOP5三席	·廣電總局公布《數(shù)字虛擬人技術(shù)要求》報(bào)批稿
·電聯(lián)共建共享新戰(zhàn)績(jī)：累計(jì)節(jié)省投資超3600億元，建成超1..	·城市空中交通時(shí)代即將來臨，如何打造好低空網(wǎng)聯(lián)和低空..
·高通柯詩亞的樹下科技談：栽培6G根基，相遇AI葉茂時(shí)	·從一塊磚的數(shù)智化轉(zhuǎn)型看傳統(tǒng)產(chǎn)業(yè)如何“老樹發(fā)新芽”
·一小時(shí)內(nèi)百萬人預(yù)約華為Mate 70供應(yīng)鏈積極備貨	·華為Kaggle大師級(jí)AI agent誕生國(guó)產(chǎn)AI應(yīng)用端有望持續(xù)繁榮
·馬斯克升級(jí)與OpenAI法律戰(zhàn) 揭露OpenAI曾計(jì)劃收購AI芯片..	·中國(guó)聯(lián)通總經(jīng)理簡(jiǎn)勤：深化數(shù)字技術(shù)融合創(chuàng)新共筑新質(zhì)生..

人物

愛立信中國(guó)區(qū)總裁方迎：新質(zhì)網(wǎng)絡(luò)創(chuàng)造新質(zhì)價(jià)值

·中興通訊CDO崔麗：溯源大模型，如..

·華為李鵬：擁抱移動(dòng)AI時(shí)代，開創(chuàng)M..

·中國(guó)移動(dòng)總經(jīng)理何飚：培育新質(zhì)生..

·中國(guó)電信李峻：只有當(dāng)人工智能成..

·中國(guó)移動(dòng)董事長(zhǎng)楊杰：共創(chuàng)AI+新時(shí)..

·中興通訊總裁徐子陽：5G-A新時(shí)代..

精彩專題

2024中國(guó)算力大會(huì)

2024年國(guó)際信息通信展

中國(guó)信科亮相2024年國(guó)際信息通信展

第25屆中國(guó)國(guó)際光電博覽會(huì)

CCTIME推薦

·中天海纜舉辦成立20周年“新技術(shù)..

·中國(guó)民企500強(qiáng)榜單，亨通位次再攀..

·初心如炬十年路奮楫篤行啟新程

·成都大唐線纜公司中標(biāo)國(guó)鐵沈白高..

·崔根良受邀參加慶祝中華人民共和..

·連接數(shù)字化美好未來 | 和中國(guó)信科..

·勇追光，向新行 | 通鼎集團(tuán)連續(xù)8..

·西古光通打造5G+智慧工廠，開啟光..

·2024財(cái)富500強(qiáng)榜單透視：崛起之路..

·上半年電信業(yè)務(wù)收入累計(jì)完成8941..

·固定寬帶接入用戶總數(shù)達(dá)6.54億戶 ..

·6月戶均移動(dòng)互聯(lián)網(wǎng)接入流量超18GB..

·三家基礎(chǔ)電信企業(yè)發(fā)展蜂窩物聯(lián)網(wǎng)..

·中國(guó)移動(dòng)用戶總數(shù)突破10億戶

·思特奇強(qiáng)化“新IT架構(gòu)”能力，助..

關(guān)于我們 | 廣告報(bào)價(jià) | 聯(lián)系我們 | 隱私聲明 | 本站地圖

CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號(hào)-1 電信與信息服務(wù)業(yè)務(wù)經(jīng)營(yíng)許可證080234號(hào) 京公網(wǎng)安備110105000771號(hào)
公司名稱：北京飛象互動(dòng)文化傳媒有限公司
未經(jīng)書面許可，禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像

<samp id="30aa5"></samp>