首頁|必讀|視頻|專訪|運營|制造|監(jiān)管|大數(shù)據(jù)|物聯(lián)網(wǎng)|量子|元宇宙|博客|特約記者
手機|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計算|芯片|報告|智慧城市|移動互聯(lián)網(wǎng)|會展
首頁 >> 人工智能 >> 正文

李彥宏堅稱不做視頻生成模型,中國版Sora到底值不值得做?

2024年10月22日 11:08  界面新聞  

近日,百度CEO李彥宏稱“百度不做Sora”的演講被媒體曝光后,有關(guān)“中國版Sora到底值不值得做”的話題又在微博、小紅書等社交媒體引發(fā)眾多爭論。

李彥宏在內(nèi)部講話中稱,Sora這種視頻生成模型的投入周期太長,10年、20年都可能拿不到業(yè)務(wù)收益,無論多火爆,百度都不去做。

反對的聲音認為,這屬于百度自身業(yè)務(wù)的問題。國內(nèi)目前在視頻生成模型上最有希望的公司是快手和字節(jié)跳動,二者的業(yè)務(wù)離視頻更近,待其視頻生成足夠優(yōu)秀之后會快速完成拉新,并帶動用戶體驗提升。

快手和字節(jié)跳動是國內(nèi)互聯(lián)網(wǎng)大廠中積極布局視頻生成大模型的公司。Sora發(fā)布后,快手便推出文生視頻大模型“可靈”,其背后的技術(shù)原理和OpenAI的Sora類似,都是把常用于視頻生成人工智能的擴散模型與Transformer架構(gòu)相結(jié)合,依托于快手短視頻平臺,擁有大量可用于訓(xùn)練的視頻數(shù)據(jù)!翱伸`”發(fā)布幾個月之后,字節(jié)跳動旗下火山引擎發(fā)布了豆包視頻生成-PixelDance、豆包視頻生成-Seaweed兩款大模型,面向企業(yè)市場開啟邀測。

除字節(jié)跳動和快手之外,今年發(fā)布視頻生成模型的公司還包括阿里云、Minimax、生數(shù)科技、智譜AI等公司。

國內(nèi)視頻生成模型領(lǐng)域雖然看起來火熱,但確實面臨著非常嚴峻的挑戰(zhàn),李彥宏對視頻生成做出的判斷并非無稽之談。

界面新聞從一位負責視頻生成模型的技術(shù)人士處了解到,生成式AI技術(shù)正大幅降低視頻生成的門檻,導(dǎo)致視頻數(shù)據(jù)以20倍左右的速度增長,對計算成本和效率提出了嚴峻的挑戰(zhàn)。以Sora模型為例,其訓(xùn)練和推理所需的算力需求分別達到了GPT-4的4.5倍和近400倍。

中國銀河證券研究院的報告也顯示,Sora對算力需求呈指數(shù)級增長。其根據(jù)Sora參數(shù)規(guī)模推演出的訓(xùn)練單次算力需求或可達到2.6×10^24Flops,相當于GPT-3175B的8.2倍。目前Sora還在初級階段,伴隨不斷迭代調(diào)優(yōu),其訓(xùn)練數(shù)據(jù)集規(guī)模將進一步增大,未來算力需求也會大幅增加。

上述技術(shù)人士還表示,在編解碼層和框架層,視頻生成模型也面臨著諸多挑戰(zhàn)。一方面是效率的問題,另一方面是在計算需求日益增長的情況下,能否靈活處理越來越復(fù)雜的需求。

這些都對視頻生成模型形成巨大考驗,但其在商業(yè)化上的形勢仍然不夠明朗,一定程度上使訓(xùn)練和推理成本上的挑戰(zhàn)更為嚴峻。

據(jù)界面新聞了解,目前視頻生成模型的落地大多在影視制作、電商營銷等領(lǐng)域,處于概念多于實質(zhì)的階段。

快手曾高調(diào)推出由可靈深度參與制作的奇幻微短劇《山海奇鏡之劈波斬浪》,并于近日聯(lián)合李少紅、賈樟柯等9位知名導(dǎo)演,啟動了完全依托視頻生成大模型制作電影短片“可靈AI”導(dǎo)演共創(chuàng)計劃,試圖以此來證明視頻生成大模型在影視制作領(lǐng)域的可用性。

但《山海奇鏡之劈波斬浪》整部影片并不是由AI一氣呵成,而是使用可靈大模型的文生圖和圖生視頻功能生成了很多時長5秒的分鏡頭,再由后期剪輯團隊剪輯而成。其在成本上整體的降幅不超過四分之一,遠不如外界預(yù)期的那么大。

從快手近期的一系列動作來看,其仍然在為可靈AI的落地尋找更多應(yīng)用場景。比如,快手試圖通過資源和流量扶植的方式,讓品牌方、制作機構(gòu)、媒體等需求方能夠與AIGC創(chuàng)作者進行商務(wù)合作,以支持使用可靈AI的創(chuàng)作者獲得變現(xiàn)機會。這在一定程度上反映了AIGC的變現(xiàn)并不像想象中的那么容易。

在這些挑戰(zhàn)之下,視頻生成模型領(lǐng)域的一個發(fā)展趨勢是降本。雖然很多公司依然在積極投入視頻生成模型,但盡可能降低訓(xùn)練和推理成本,已經(jīng)是很多公司都在探索的方向。

在預(yù)處理過程統(tǒng)一視頻的數(shù)據(jù)格式、提高數(shù)據(jù)質(zhì)量、實現(xiàn)數(shù)據(jù)標準化、減少數(shù)據(jù)量以及處理標注信息,則是其他一些公司降本的重點。抖音一位視頻架構(gòu)技術(shù)負責人表示,超大規(guī)模視頻訓(xùn)練數(shù)據(jù)集導(dǎo)致計算和處理成本激增、視頻樣本數(shù)據(jù)參差不齊,以及處理鏈路環(huán)節(jié)多、工程復(fù)雜等,都讓視頻生成模型訓(xùn)練和推理成本增加。同時,對GPU、CPU、ARM等多種異構(gòu)算力資源的調(diào)度部署也是挑戰(zhàn)之一。

據(jù)界面新聞了解,豆包視頻生成模型自研了多媒體處理框架BMF來應(yīng)對模型訓(xùn)練的算力成本挑戰(zhàn),該方案可使用大量潮汐資源,為模型訓(xùn)練提供支撐。

除此之外,通過自研芯片在同等視頻壓縮效率下實現(xiàn)視頻大模型訓(xùn)練和推理成本降低,是部分互聯(lián)網(wǎng)大廠選擇的方向。而一些AIGC公司則在探索將低質(zhì)量視頻與高質(zhì)量圖像相結(jié)合,在保障視頻輸出畫質(zhì)的基礎(chǔ)上降低訓(xùn)練模型成本的方法。當成本真的降下來,視頻生成模型的未來之路也會更加明晰。

編 輯:章芳
飛象網(wǎng)版權(quán)及免責聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對于經(jīng)過授權(quán)可以轉(zhuǎn)載,請必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標注作者信息和飛象網(wǎng)來源。
2.凡注明“來源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點和對其真實性負責。
3.如因作品內(nèi)容、版權(quán)和其它問題,請在相關(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進行的“內(nèi)容核實”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權(quán)。
相關(guān)新聞              
 
人物
中國電信李峻:只有當人工智能成為公共基礎(chǔ)設(shè)施,才能普惠大眾
精彩專題
2024中國算力大會
2024年國際信息通信展
中國信科亮相2024年國際信息通信展
第25屆中國國際光電博覽會
CCTIME推薦
關(guān)于我們 | 廣告報價 | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號-1  電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證080234號 京公網(wǎng)安備110105000771號
公司名稱: 北京飛象互動文化傳媒有限公司
未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像