首頁(yè)|必讀|視頻|專訪|運(yùn)營(yíng)|制造|監(jiān)管|大數(shù)據(jù)|物聯(lián)網(wǎng)|量子|元宇宙|博客|特約記者
手機(jī)|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計(jì)算|芯片|報(bào)告|智慧城市|移動(dòng)互聯(lián)網(wǎng)|會(huì)展
首頁(yè) >> 移動(dòng)互聯(lián)網(wǎng) >> 正文

智譜新清影:模型全面升級(jí)、4K、任意比例、自帶音效

2024年11月11日 13:57  CCTIME飛象網(wǎng)  

11月8日,智譜推出新清影:10s時(shí)長(zhǎng)、4k、60幀超高清畫質(zhì)、任意尺寸,自帶音效,以及更好人體動(dòng)作和物理世界模擬。

3個(gè)月前,作為國(guó)內(nèi)首個(gè)面向公眾開放的視頻生成產(chǎn)品,清影上線清言App,只需一段指令或圖片,30秒就能生成AI視頻。為人類影視創(chuàng)作帶來(lái)了更多創(chuàng)新玩法,如廣告制作、短視頻、表情包梗圖等。

清影發(fā)布后不久,GLM技術(shù)團(tuán)隊(duì)先后開源了CogVideoX 2B和5B版本兩個(gè)模型,可在消費(fèi)級(jí)顯卡上流暢運(yùn)行,性能領(lǐng)先的CogVideoX-5B模型自開源以來(lái)受到廣泛的關(guān)注,并衍生出如CogVideoX-factory等大量的二次開發(fā)項(xiàng)目。

基于CogVideoX模型的最新技術(shù)進(jìn)展和智譜最新推出的音效模型CogSound,新清影在以下5個(gè)方面實(shí)現(xiàn)了提升。

· 模型能力全面提升:在圖生視頻的質(zhì)量、美學(xué)表現(xiàn)、運(yùn)動(dòng)合理性以及復(fù)雜提示詞語(yǔ)義理解方面能力明顯增強(qiáng)。

· 4K超高清分辨率:支持生成 10s、4K、60幀超高清視頻,視覺(jué)體驗(yàn)拉到極致,動(dòng)態(tài)畫面更加流暢。

· 可變比例:支持任意比例的圖像生成視頻,超寬畫幅也能輕松Hold住,從而適應(yīng)不同的播放需求。

· 多通道生成能力:同一指令/圖片可以一次性生成4個(gè)視頻。

· 帶聲效的AI視頻:新清影可以生成與畫面匹配的音效了。音效功能將很快在本月上線公測(cè)。

即日起,新清影在智譜清言App上線,為了支持廣大開發(fā)者,智譜同時(shí)將CogVideoX v1.5-5B、CogVideoX v1.5-5B-I2V進(jìn)行了開源。

生成視頻將為影視工作者、短視頻創(chuàng)作者提升產(chǎn)量、產(chǎn)能,在其生產(chǎn)流程中發(fā)揮重要作用。不到一年時(shí)間,生成視頻技術(shù)在視頻時(shí)長(zhǎng)、生成速度、分辨率、一致性等方面已經(jīng)顯示出長(zhǎng)足進(jìn)步。新清影往前又邁進(jìn)了一步,未來(lái),智譜也將攜手視覺(jué)中國(guó)等合作伙伴,基于更豐富的視覺(jué)內(nèi)容,產(chǎn)出更好的AI生成視頻工具。

“默片 Sora”進(jìn)入“有聲電影時(shí)代”

智譜認(rèn)為真正的智能一定是多模態(tài)的,聽覺(jué)、視覺(jué)、觸覺(jué)等共同參與了人腦認(rèn)知能力的形成,因此,智譜希望包括文字、圖像、語(yǔ)音和視覺(jué)等模態(tài)在內(nèi)的智譜多模態(tài)大模型矩陣,能夠進(jìn)一步提高大模型的應(yīng)用和工具能力。

因此,GLM模型家族逐步從文字拓展至圖片、視頻、聲音,以及音效。今天,GLM家族加入了新成員——音效模型CogSound和音樂(lè)模型CogMusic。即將上線與大家見(jiàn)面的音效模型CogSound能根據(jù)視頻自動(dòng)生成音效、節(jié)奏等音樂(lè)元素,它是基于GLM-4V的視頻理解能力,能夠準(zhǔn)確識(shí)別并理解視頻背后的語(yǔ)義和情感,在此基礎(chǔ)上生成與之相匹配的音頻內(nèi)容,甚至生成復(fù)雜音效,如爆炸、水流、樂(lè)器、動(dòng)物叫聲、交通工具聲等。

音效模型的出現(xiàn)能夠?qū)崿F(xiàn)視頻與聲音的同步創(chuàng)作。同時(shí)該模型在電影行業(yè)也具有廣泛的應(yīng)用前景,比如可以生成電影中的大規(guī)模戰(zhàn)斗場(chǎng)景和災(zāi)難場(chǎng)景的聲音,大大縮短了制作周期,降低了制作成本。

「CogVideoX + CogSound」由清影生成畫面,音效模型配音

兩周前,智譜剛剛發(fā)布最新的GLM-4-Voice情感語(yǔ)音模型。今天,隨著音效模型的加入,GLM大模型在聲音模態(tài)領(lǐng)域?qū)崿F(xiàn)了人聲、音效、音樂(lè)的多鏈路布局,基于圖像、視頻和聲音的多模態(tài)模型矩陣由此更加完整,意味著智譜在多模態(tài)和工具兩個(gè)維度上都朝著AGI的目標(biāo)邁出了一小步。

音效模型將于本月上線清言App,與新清影一起生成有聲AI影片。智譜的理想狀態(tài)是,只需一個(gè)好的創(chuàng)意,剩下的事AI都能輔助搞定,輕松將一個(gè)idea、一張圖,變成一段自帶bgm的影片。相信這個(gè)組合能給創(chuàng)作者和用戶帶來(lái)AI生視頻的全新體驗(yàn)。

當(dāng)前,AI生成視頻用于影視創(chuàng)作仍需要多種不同的創(chuàng)作工具串聯(lián)使用。但基于智譜多模態(tài)的最新成果,實(shí)現(xiàn)這種一站式AI原生多模態(tài)工作流,這樣的前景無(wú)疑是激動(dòng)人心的。

編 輯:T01
飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來(lái)源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對(duì)于經(jīng)過(guò)授權(quán)可以轉(zhuǎn)載,請(qǐng)必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和飛象網(wǎng)來(lái)源。
2.凡注明“來(lái)源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)?jiān)谙嚓P(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時(shí)間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進(jìn)行的“內(nèi)容核實(shí)”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對(duì)此聲明的最終解釋權(quán)。
相關(guān)新聞              
 
人物
愛(ài)立信中國(guó)區(qū)總裁方迎:新質(zhì)網(wǎng)絡(luò)創(chuàng)造新質(zhì)價(jià)值
精彩專題
2024中國(guó)算力大會(huì)
2024年國(guó)際信息通信展
中國(guó)信科亮相2024年國(guó)際信息通信展
第25屆中國(guó)國(guó)際光電博覽會(huì)
CCTIME推薦
關(guān)于我們 | 廣告報(bào)價(jià) | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號(hào)-1  電信與信息服務(wù)業(yè)務(wù)經(jīng)營(yíng)許可證080234號(hào) 京公網(wǎng)安備110105000771號(hào)
公司名稱: 北京飛象互動(dòng)文化傳媒有限公司
未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像