微軟研究院近日展示了 Project Rumi 項(xiàng)目,結(jié)合文本,音頻和視頻數(shù)據(jù),通過(guò)多模方法,提高人工智能系統(tǒng)的理解能力,從而更能理解人類的意圖。
人工智能系統(tǒng)近年來(lái)取得了長(zhǎng)足的進(jìn)步,尤其在自然語(yǔ)言處理(NLP)領(lǐng)域的成長(zhǎng)更為驚人。不過(guò)現(xiàn)有 NLP AI 主要依賴于文本輸入輸出,忽略了人類在自然交流中的語(yǔ)調(diào),面部表情,手勢(shì)和肢體語(yǔ)言等線索,從而在理解方面會(huì)存在偏差。
在 AI 專業(yè)術(shù)語(yǔ)中,這些線索統(tǒng)稱為副語(yǔ)言(paralinguistics/ paralanguage)。
微軟研究院為了解決這個(gè)問(wèn)題,開發(fā)了 Project Rumi,這是一個(gè)新穎的框架,旨在通過(guò)多模態(tài)副語(yǔ)言提示來(lái)增強(qiáng)人工智能的理解。該項(xiàng)目包括兩個(gè)主要部分:多模式副語(yǔ)言編碼器和多模式副語(yǔ)言解碼器