近日,2025年第八屆計算機圖形和虛擬國際會議(ICCGV 2025)公布論文收錄結(jié)果,社交平臺Soul App研究成果《LLM Gesticulator: Leveraging Large Language Models for Scalable and Controllable Co-Speech Gesture Synthesis》(LLM Gesticulator:利用大語言模型實現(xiàn)可擴展且可控的協(xié)同手勢合成)入選。
計算機圖形和虛擬國際會議聚焦計算機圖形學(xué)與虛擬現(xiàn)實技術(shù)。在人工智能技術(shù)實現(xiàn)突破式發(fā)展,推動虛擬現(xiàn)實方向進入新階段的當(dāng)下,大會關(guān)注虛擬現(xiàn)實環(huán)境/增強現(xiàn)實/混合現(xiàn)實、人機交互和高級交互等領(lǐng)域,計算機圖形學(xué)與虛擬現(xiàn)實技術(shù)的最新科研成果和產(chǎn)業(yè)發(fā)展對人類認知世界、交互體驗的深刻影響,也吸引了全球頂尖學(xué)者、行業(yè)精英及創(chuàng)新先鋒,共同探討技術(shù)的進步,攜手助力產(chǎn)學(xué)研聯(lián)動。
Soul論文核心亮點為在行業(yè)內(nèi)首次提出使用大模型作為基底模型實現(xiàn)虛擬人的多模態(tài)驅(qū)動,并實現(xiàn)了各項指標超過之前的最佳方案。此次論文入選,也意味著作為致力于以技術(shù)和產(chǎn)品模式創(chuàng)新提升年輕一代交互體驗的社交平臺,Soul的底層技術(shù)能力建設(shè)和探索方向得到了行業(yè)和學(xué)界的認可。
事實上,堅持以技術(shù)驅(qū)動創(chuàng)新,Soul自2016年上線后便注重AI、虛擬人、虛擬與現(xiàn)實融合等方向的技術(shù)能力建設(shè)。
特別是為了降低用戶社交壓力,Soul不支持用戶上傳真實頭像,年輕人通過平臺提供的捏臉系統(tǒng),自主創(chuàng)造個性化虛擬形象。
此前,Soul集成AI、渲染和圖像處理等技術(shù),推出了自研的NAWA引擎,為用戶創(chuàng)建個性化的3D社交形象和場景提供技術(shù)支持。2020年,Soul正式啟動對AIGC的技術(shù)研發(fā)工作,系統(tǒng)推進在智能對話、語音技術(shù)、3D虛擬人等AIGC關(guān)鍵技術(shù)能力研發(fā)工作,并推動AI能力在社交場景的快速落地。
目前,Soul已先后上線了自研語言大模型Soul X,以及語音生成大模型、語音識別大模型、語音對話大模型、音樂生成大模型等語音大模型能力。2024年,Soul AI大模型能力整體升級為多模態(tài)端到端大模型,支持文字對話、語音通話、多語種、多模態(tài)理解、真實擬人等特性,真正實現(xiàn)更接近生活日常的交互對話和“類真人”的情感陪伴體驗。
沿著多模態(tài)融合的方向,Soul團隊希望能夠集成3D虛擬人能力創(chuàng)新多模態(tài)AI交互方案,為用戶提供更加沉浸、自然、流暢、智能的互動體驗。相關(guān)負責(zé)人表示,“3D虛擬人是多模態(tài)中的重要組成部分和效果的豐富化呈現(xiàn),社交則是3D虛擬人落地的最佳自然場景之一,Soul自身具備完整的多模態(tài)團隊、3D虛擬人/AI能力積累和深耕社交場景的洞察,團隊有機會在此領(lǐng)域形成創(chuàng)新方案和競爭壁壘!
《LLM Gesticulator: Leveraging Large Language Models for Scalable and Controllable Co-Speech Gesture Synthesis》一文中匯聚了Soul在此方向的最新研究成果,展現(xiàn)了3D虛擬形象、肢體動作、文字、語言、視覺等多維度真正多模態(tài)融合實現(xiàn)的可能性。
首先,團隊首次提出使用大語言模型作為基座模型實現(xiàn)3D虛擬人的多模態(tài)驅(qū)動方案,其展現(xiàn)出了極高的可控性和可拓展性,并且實驗表明該模型在動畫質(zhì)量、動畫相關(guān)性、節(jié)奏匹配度和文本匹配度等多個指標上都超過了以往方案。
此外,過往行業(yè)方案中大多只支持單一模態(tài)的驅(qū)動,Soul團隊對模型進行了特殊設(shè)計,使得模型可以同時支持文本+音頻的輸入,并能夠生成和音頻節(jié)奏和文本語意都符合的動畫數(shù)據(jù)。
最后,團隊還探索了一種基于視覺大模型的自動化數(shù)據(jù)標注范式,提供了新的數(shù)據(jù)標注思路。
高度重視技術(shù)能力建設(shè),2024年Soul多個技術(shù)研究成果獲得學(xué)界和行業(yè)肯定。8月,平臺研究成果《Multimodal Emotion Recognition with Vision-language Prompting and Modality Dropout》(基于視覺語言提示與模態(tài)暫退的多模態(tài)情感識別),入選ACM國際多媒體會議(ACM MM 2024)上組織的多模態(tài)與可靠性情感計算研討會MRAC 24(Multimodal, Generative and Responsible Affective Computing 2024),該論文重點介紹了Soul團隊為提高情緒識別的準確性和泛化性能,提出的多模態(tài)情緒識別方法。
夯實技術(shù)基建的同時,Soul始終強調(diào)推動AI能力在社交場景的快速落地,目前Soul大模型能力和創(chuàng)新互動方案已在智能對話機器人“AI茍蛋”、狼人殺Agent、數(shù)字分身和最新的AI虛擬人智能陪伴功能等場景應(yīng)用。
在今年10月舉辦的全球三大IT展之一—— GITEX GLOBAL海灣信息技術(shù)博覽會上,Soul攜集成3D虛擬人能力的多模態(tài)AI交互方案亮相,在活動現(xiàn)場,觀眾可以通過數(shù)字裝置即時生成3D虛擬數(shù)字分身,通過實時動作捕捉與還原,體驗自然、流暢、沉浸式的多模態(tài)互動。
接下來,Soul集合了3D虛擬人的多模態(tài)交互能力將陸續(xù)在站內(nèi)虛擬陪伴、群聊派對、游戲等多個場景落地,讓用戶通過創(chuàng)新技術(shù)的應(yīng)用在社交中充分展現(xiàn)自身鮮明的個性,精準傳遞情緒溫度,在各種虛實融合的場景中與他人自在交流、互動,感受全新的互動體驗。