據(jù)媒體報道,OpenAI公司最近推出了一項革命性的聲音克隆技術(shù)——“Voice Engine”。
據(jù)悉,Voice Engine通過文本輸入和15秒的音頻樣本,便能生成與原始說話者聲音極為相似、情感豐富且自然逼真的語音。
這一技術(shù)的研發(fā)始于2022年,并已應(yīng)用于公司現(xiàn)有的文本轉(zhuǎn)語音API和Read Aloud功能中的預(yù)設(shè)語音。
OpenAI認(rèn)為,Voice Engine技術(shù)對于多個領(lǐng)域具有重大意義。在閱讀輔助和語言翻譯方面,它能夠提供更為自然的語音輸出,增強用戶體驗。
同時,該技術(shù)對于言語障礙患者來說更是一大福音,能夠幫助他們更順暢地交流。例如,在布朗大學(xué)的一個試點項目中,該技術(shù)成功用于創(chuàng)建從學(xué)校項目錄制的音頻中提取的語音克隆,有效幫助了言語障礙學(xué)生。
然而,鑒于合成語音技術(shù)可能存在的濫用風(fēng)險,OpenAI目前僅對少數(shù)可信合作伙伴開放小規(guī)模測試。通過這種方式,公司旨在深入了解技術(shù)的潛在應(yīng)用,并評估可能帶來的風(fēng)險。
OpenAI也希望通過此舉引發(fā)社會對合成語音負(fù)責(zé)任部署的廣泛討論,共同探索如何適應(yīng)這一新型技術(shù)。
此外,為了確保技術(shù)的安全使用,OpenAI還采取了一系列安全措施。這些措施包括使用水印技術(shù)追蹤音頻來源,以及對系統(tǒng)的使用方式進行主動監(jiān)控。
當(dāng)產(chǎn)品正式推向市場時,公司將設(shè)立一個“禁止語音列表”,以檢測并阻止與名人聲音過于相似的人工智能生成聲音,從而避免潛在的版權(quán)和隱私問題。