首頁|必讀|視頻|專訪|運營|制造|監(jiān)管|大數(shù)據(jù)|物聯(lián)網(wǎng)|量子|元宇宙|智能汽車|特約記者
手機|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計算|芯片|報告|智慧城市|移動互聯(lián)網(wǎng)|會展
首頁 >> 移動互聯(lián)網(wǎng) >> 正文

創(chuàng)新3D虛擬人交互方案受認可,Soul App多模驅(qū)動研究論文入選ICCGV 2025

2024年11月21日 13:41  CCTIME飛象網(wǎng)  

近日,2025年第八屆計算機圖形和虛擬國際會議(ICCGV 2025)公布論文收錄結(jié)果,社交平臺Soul App研究成果《LLM Gesticulator: Leveraging Large Language Models for Scalable and Controllable Co-Speech Gesture Synthesis》(LLM Gesticulator:利用大語言模型實現(xiàn)可擴展且可控的協(xié)同手勢合成)入選。

計算機圖形和虛擬國際會議聚焦計算機圖形學(xué)與虛擬現(xiàn)實技術(shù)。在人工智能技術(shù)實現(xiàn)突破式發(fā)展,推動虛擬現(xiàn)實方向進入新階段的當(dāng)下,大會關(guān)注虛擬現(xiàn)實環(huán)境/增強現(xiàn)實/混合現(xiàn)實、人機交互和高級交互等領(lǐng)域,計算機圖形學(xué)與虛擬現(xiàn)實技術(shù)的最新科研成果和產(chǎn)業(yè)發(fā)展對人類認知世界、交互體驗的深刻影響,也吸引了全球頂尖學(xué)者、行業(yè)精英及創(chuàng)新先鋒,共同探討技術(shù)的進步,攜手助力產(chǎn)學(xué)研聯(lián)動。

Soul論文核心亮點為在行業(yè)內(nèi)首次提出使用大模型作為基底模型實現(xiàn)虛擬人的多模態(tài)驅(qū)動,并實現(xiàn)了各項指標超過之前的最佳方案。此次論文入選,也意味著作為致力于以技術(shù)和產(chǎn)品模式創(chuàng)新提升年輕一代交互體驗的社交平臺,Soul的底層技術(shù)能力建設(shè)和探索方向得到了行業(yè)和學(xué)界的認可。

事實上,堅持以技術(shù)驅(qū)動創(chuàng)新,Soul自2016年上線后便注重AI、虛擬人、虛擬與現(xiàn)實融合等方向的技術(shù)能力建設(shè)。

特別是為了降低用戶社交壓力,Soul不支持用戶上傳真實頭像,年輕人通過平臺提供的捏臉系統(tǒng),自主創(chuàng)造個性化虛擬形象。

此前,Soul集成AI、渲染和圖像處理等技術(shù),推出了自研的NAWA引擎,為用戶創(chuàng)建個性化的3D社交形象和場景提供技術(shù)支持。2020年,Soul正式啟動對AIGC的技術(shù)研發(fā)工作,系統(tǒng)推進在智能對話、語音技術(shù)、3D虛擬人等AIGC關(guān)鍵技術(shù)能力研發(fā)工作,并推動AI能力在社交場景的快速落地。

目前,Soul已先后上線了自研語言大模型Soul X,以及語音生成大模型、語音識別大模型、語音對話大模型、音樂生成大模型等語音大模型能力。2024年,Soul AI大模型能力整體升級為多模態(tài)端到端大模型,支持文字對話、語音通話、多語種、多模態(tài)理解、真實擬人等特性,真正實現(xiàn)更接近生活日常的交互對話和“類真人”的情感陪伴體驗。

沿著多模態(tài)融合的方向,Soul團隊希望能夠集成3D虛擬人能力創(chuàng)新多模態(tài)AI交互方案,為用戶提供更加沉浸、自然、流暢、智能的互動體驗。相關(guān)負責(zé)人表示,“3D虛擬人是多模態(tài)中的重要組成部分和效果的豐富化呈現(xiàn),社交則是3D虛擬人落地的最佳自然場景之一,Soul自身具備完整的多模態(tài)團隊、3D虛擬人/AI能力積累和深耕社交場景的洞察,團隊有機會在此領(lǐng)域形成創(chuàng)新方案和競爭壁壘!

《LLM Gesticulator: Leveraging Large Language Models for Scalable and Controllable Co-Speech Gesture Synthesis》一文中匯聚了Soul在此方向的最新研究成果,展現(xiàn)了3D虛擬形象、肢體動作、文字、語言、視覺等多維度真正多模態(tài)融合實現(xiàn)的可能性。

首先,團隊首次提出使用大語言模型作為基座模型實現(xiàn)3D虛擬人的多模態(tài)驅(qū)動方案,其展現(xiàn)出了極高的可控性和可拓展性,并且實驗表明該模型在動畫質(zhì)量、動畫相關(guān)性、節(jié)奏匹配度和文本匹配度等多個指標上都超過了以往方案。

此外,過往行業(yè)方案中大多只支持單一模態(tài)的驅(qū)動,Soul團隊對模型進行了特殊設(shè)計,使得模型可以同時支持文本+音頻的輸入,并能夠生成和音頻節(jié)奏和文本語意都符合的動畫數(shù)據(jù)。

最后,團隊還探索了一種基于視覺大模型的自動化數(shù)據(jù)標注范式,提供了新的數(shù)據(jù)標注思路。

高度重視技術(shù)能力建設(shè),2024年Soul多個技術(shù)研究成果獲得學(xué)界和行業(yè)肯定。8月,平臺研究成果《Multimodal Emotion Recognition with Vision-language Prompting and Modality Dropout》(基于視覺語言提示與模態(tài)暫退的多模態(tài)情感識別),入選ACM國際多媒體會議(ACM MM 2024)上組織的多模態(tài)與可靠性情感計算研討會MRAC 24(Multimodal, Generative and Responsible Affective Computing 2024),該論文重點介紹了Soul團隊為提高情緒識別的準確性和泛化性能,提出的多模態(tài)情緒識別方法。

夯實技術(shù)基建的同時,Soul始終強調(diào)推動AI能力在社交場景的快速落地,目前Soul大模型能力和創(chuàng)新互動方案已在智能對話機器人“AI茍蛋”、狼人殺Agent、數(shù)字分身和最新的AI虛擬人智能陪伴功能等場景應(yīng)用。

在今年10月舉辦的全球三大IT展之一—— GITEX GLOBAL海灣信息技術(shù)博覽會上,Soul攜集成3D虛擬人能力的多模態(tài)AI交互方案亮相,在活動現(xiàn)場,觀眾可以通過數(shù)字裝置即時生成3D虛擬數(shù)字分身,通過實時動作捕捉與還原,體驗自然、流暢、沉浸式的多模態(tài)互動。

接下來,Soul集合了3D虛擬人的多模態(tài)交互能力將陸續(xù)在站內(nèi)虛擬陪伴、群聊派對、游戲等多個場景落地,讓用戶通過創(chuàng)新技術(shù)的應(yīng)用在社交中充分展現(xiàn)自身鮮明的個性,精準傳遞情緒溫度,在各種虛實融合的場景中與他人自在交流、互動,感受全新的互動體驗。

編 輯:T01
飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對于經(jīng)過授權(quán)可以轉(zhuǎn)載,請必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標注作者信息和飛象網(wǎng)來源。
2.凡注明“來源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點和對其真實性負責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問題,請在相關(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進行的“內(nèi)容核實”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權(quán)。
相關(guān)新聞              
 
人物
愛立信中國區(qū)總裁方迎:新質(zhì)網(wǎng)絡(luò)創(chuàng)造新質(zhì)價值
精彩專題
2024中國算力大會
2024年國際信息通信展
中國信科亮相2024年國際信息通信展
第25屆中國國際光電博覽會
CCTIME推薦
關(guān)于我們 | 廣告報價 | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號-1  電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證080234號 京公網(wǎng)安備110105000771號
公司名稱: 北京飛象互動文化傳媒有限公司
未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像