7月2日,《每日經(jīng)濟新聞》記者獲悉,百度商業(yè)研發(fā)團隊對外發(fā)布了自研視頻生成模型“MuseSteamer”及配套創(chuàng)作平臺“繪想”,正式進軍AI(人工智能)視頻生成領(lǐng)域。
2024年,Sora爆火引發(fā)生成式視頻大模型熱潮,李彥宏則在一場內(nèi)部講話中稱,Sora這種視頻生成模型的投入周期太長,10年、20年都可能拿不到業(yè)務(wù)收益,無論多火爆,百度都不去做。
7月2日,一位接近百度的人士對《每日經(jīng)濟新聞》記者分析稱,Robin(李彥宏)點評Sora其實還有后半句,基于多模態(tài)需求,可以做一個相對特定的視頻生成場景!鞍ò俣惹岸螘r間的羅永浩數(shù)字人其實也是特定場景的視頻生成。原本商業(yè)側(cè)已有擎舵這個平臺,那么去服務(wù)B端商業(yè)客戶生成AIGC(人工智能生成內(nèi)容)產(chǎn)品宣傳視頻,其實就是特定場景,也是有用戶需求的!
關(guān)鍵優(yōu)勢在于極致遵循力
當前,AI生成視頻在生成質(zhì)量、畫面穩(wěn)定性和長度等方面仍是各大技術(shù)廠商持續(xù)攻堅的領(lǐng)域。
百度商業(yè)體系商業(yè)研發(fā)總經(jīng)理劉林表示,在數(shù)字內(nèi)容創(chuàng)作領(lǐng)域,視頻時長與畫質(zhì)的突破往往意味著創(chuàng)作自由度的質(zhì)變。MuseSteamer可支持電影級審美下的10秒長視頻的生成,1080P的高清晰度,為視頻創(chuàng)作提供了更大的表現(xiàn)空間。
劉林表示,傳統(tǒng)AIGC視頻創(chuàng)作實踐中,往往是先生成視頻,再進行配音和添加音效。割裂的創(chuàng)作環(huán)節(jié)不僅消耗大量時間,更會削弱作品的完整藝術(shù)表達。MuseSteamer創(chuàng)新性支持一體化生成帶有音效和人物臺詞的視頻。
此外,在視頻長度方面,MuseSteamer目前支持生成5秒和10秒兩個版本,并可達1080p清晰度。百度此次同步發(fā)布了MuseSteamer模型的家族版本,包括Turbo、Lite、Pro,以及各版本對應(yīng)的有聲版,分別面向不同的創(chuàng)作需求和成本考量。
劉林強調(diào),MuseSteamer的關(guān)鍵優(yōu)勢在于其對創(chuàng)作指令的理解與執(zhí)行能力,即所謂的極致遵循力,能實現(xiàn)創(chuàng)作者“所思即所得”的表達自由。此外,鏡頭運用能力也是其差異化競爭力之一,百度希望通過該模型降低專業(yè)創(chuàng)作門檻,讓更多人獲得“鏡頭平權(quán)”。
據(jù)介紹,MuseSteamer模型的技術(shù)基礎(chǔ)包括三大方面:首先,在數(shù)據(jù)準備階段,通過“篩選—凈化—配比”的方式,對超過10億條異構(gòu)數(shù)據(jù)進行處理,并結(jié)合三級標簽體系和Active Learning(主動學(xué)習(xí))機制,以保證訓(xùn)練數(shù)據(jù)的審美和結(jié)構(gòu)質(zhì)量。
其次,在模型訓(xùn)練過程中,采用多目標反饋的強化學(xué)習(xí)優(yōu)化路徑,試圖在保證視頻動作幅度的同時,保持主體內(nèi)容的一致性穩(wěn)定輸出。同時,MuseSteamer引入美學(xué)條件控制調(diào)優(yōu),通過隱式批判學(xué)習(xí)和影視標準嚴選,讓模型懂美、創(chuàng)造美。
MuseSteamer如何面對勁敵
相比OpenAI、字節(jié)跳動、Pika等更早投入文生視頻賽道的企業(yè),百度此次推出MuseSteamer確屬“后發(fā)”。無論是國外如Pika、Runway,還是國內(nèi)如快手旗下的可靈AI、字節(jié)跳動旗下剪映團隊孵化的AI創(chuàng)作平臺即夢AI,均從2024年起就密集發(fā)布各類模型、功能和平臺,并已完成多次迭代。
今年5月,快手可靈AI宣布推出全新2.1系列模型,高品質(zhì)模式(1080p)下生成5秒視頻僅需不到1分鐘。快手官網(wǎng)信息顯示,可靈AI在推出10個月之后(即今年3月)的年化收入運行率(Annualized Revenue Run Rate)突破1億美金,其今年4月和5月的月度付費金額均超過1億元人民幣。
百度是最早布局大模型的國內(nèi)科技企業(yè)之一。自2023年起,百度發(fā)布文心一言、迭代多個版本的文心大模型,同時已在搜索、地圖、文檔、企業(yè)服務(wù)等多個業(yè)務(wù)線中落地大模型能力。
但在視頻生成這一AIGC下一個爆發(fā)點上,百度此前并未公開大動作,僅在2024年宣布領(lǐng)投清華系視頻大模型公司生數(shù)科技。此外,2025年3月,百度發(fā)布的文心大模型4.5和4.5 Turbo實現(xiàn)了文本、圖像和視頻的混合訓(xùn)練。
2024年,Sora爆火引發(fā)國內(nèi)生成式視頻大模型熱潮,李彥宏則在一場內(nèi)部講話中稱,Sora這種視頻生成模型的投入周期太長,10年、20年都可能拿不到業(yè)務(wù)收益,無論多火爆,百度都不去做。
7月2日,一位接近百度的人士對《每日經(jīng)濟新聞》記者分析稱:“之前提到的不做類似Sora,更多是不去訓(xùn)一個general-purpose(通用)的視頻生成模型,但是在特定場景、特定目的下的視頻生成能力是需要的,或者說基于對市場需求的判斷,外界確實沒有這種能力,會自己來生產(chǎn)、研發(fā)這樣的能力。”
上述人士表示,Robin(指李彥宏)點評Sora其實還有后半句,基于多模態(tài)需求,可以做一個相對特定的視頻生成場景!鞍ò俣惹岸螘r間的羅永浩數(shù)字人其實也是特定場景的視頻生成。原本商業(yè)側(cè)已有擎舵這個平臺,那么去服務(wù)B端商業(yè)客戶生成AIGC產(chǎn)品宣傳視頻,其實就是特定場景,也是有用戶需求的!
記者注意到,MuseSteamer由百度商業(yè)研發(fā)團隊主導(dǎo)推出,或許意味著其背后的直接應(yīng)用場景有可能是廣告創(chuàng)意生成與內(nèi)容投放。
此外,7月2日,百度搜索還宣布進行十年來最大改版,從搜索框、搜索結(jié)果頁到搜索生態(tài)全面革新。具體而言,百度搜索框升級為“智能框”,支持超千字的文本輸入,拍照、語音、視頻等能力也全面加強,支持直接調(diào)取AI寫作、AI作圖等工具。 百度搜索還宣布接入視頻生成模型MuseSteamer。
未來,MuseSteamer如何融入百度搜索、營銷與智能助手等核心業(yè)務(wù),將決定它是否能從工具演化為平臺,從模型能力走向商業(yè)杠桿。