飛象網(wǎng)訊(麒麟/文)“唔該查嚇電話費(fèi)吖”、“儂幫阿拉查下話費(fèi)好伐?”粵語、上海話、四川話······中國電信萬號(hào)智能客服每天接到幾百萬通電話,其中很大比例用方言撥打,尤其是“老少邊窮”地區(qū),一些老人習(xí)慣說方言,甚至只會(huì)說方言,智能客服及人工客服都難以理解,溝通效率難免大打折扣。據(jù)統(tǒng)計(jì),全國仍有約20%人口未普及普通話,他們常常被隔絕在智能信息服務(wù)之外,難以享受到AI時(shí)代的便利。
近日,中國電信人工智能研究院(TeleAI)發(fā)布業(yè)內(nèi)首個(gè)支持30種方言自由混說的語音識(shí)別大模型——星辰超多方言語音識(shí)別大模型,打破單一模型只能識(shí)別特定單一方言的困境,可同時(shí)識(shí)別理解粵語、上海話、四川話、溫州話等30多種方言,是國內(nèi)支持最多方言的語音識(shí)別大模型。中國電信人工智能研究院用最前沿的語音識(shí)別技術(shù),讓溝通更加自然流暢,極大解決老年人及老少邊窮地區(qū)人們的信息服務(wù)無法觸達(dá)的問題,為人們搭建一條通往AI時(shí)代溝通的橋梁。
用AI守護(hù)方言,讓語言文化煥發(fā)生命力
方言是中國文化多樣性的瑰寶,傳承豐富的歷史文化內(nèi)涵;方言也是不同區(qū)域文化的靈魂,凝聚人們鄉(xiāng)情的根源,具有豐富的人文價(jià)值。然而,很多方言卻在社會(huì)經(jīng)濟(jì)快速發(fā)展中不斷消亡,保護(hù)方言傳承語言文化已迫在眉睫。
AI正在為傳承語言文化注入全新生命力。方言語料采集、記錄和歸納后,需保證能被后人正確理解。中國幅員遼闊,“百里不同俗,十里不同音”各種方言語法語音特征各不相同,傳統(tǒng)的方言研究依賴于調(diào)查者主觀感知標(biāo)注,人力工程量巨大且難以系統(tǒng)標(biāo)注。而AI能夠更高效、系統(tǒng)地對(duì)方言進(jìn)行整理歸納,對(duì)方言保護(hù)和傳承意義重大。
構(gòu)建高質(zhì)量方言數(shù)據(jù)庫,是方言保護(hù)和研究的基礎(chǔ)。當(dāng)前,中國電信人工智能研究院已構(gòu)建超30種,超30萬小時(shí)的高質(zhì)量方言數(shù)據(jù)庫,方言數(shù)據(jù)庫在豐富性和高質(zhì)量等層面均居于業(yè)內(nèi)前列。
中國電信人工智能研究院(TeleAI)堅(jiān)持自主研發(fā)創(chuàng)新,在中國電信CTO、人工智能研究院院長李學(xué)龍帶領(lǐng)下,推出了星辰語音大模型,通過超大規(guī)模語音預(yù)訓(xùn)練和多方言聯(lián)合建模,率先實(shí)現(xiàn)單一模型支持30種方言自由混說語音識(shí)別,是國內(nèi)支持最多方言、覆蓋人口最多的語音大模型;研發(fā)團(tuán)隊(duì)首創(chuàng)“蒸餾+膨脹”聯(lián)合訓(xùn)練算法,解決超大規(guī)模多場景數(shù)據(jù)集和大規(guī)模參數(shù)條件下,預(yù)訓(xùn)練坍縮的問題,實(shí)現(xiàn)1B參數(shù)80層模型穩(wěn)定訓(xùn)練;星辰語音大模型也是業(yè)內(nèi)首個(gè)開源的基于離散語音表征的語音識(shí)別大模型,通過“從語音到token再到文本”的建模新范式,將推理時(shí)語音傳輸比特率降低數(shù)十倍。
星辰語音大模型以絕對(duì)領(lǐng)先的性能,斬獲多個(gè)國際權(quán)威賽事冠軍。在權(quán)威國際語音頂會(huì)INTERSPEECH2024離散語音單元建模挑戰(zhàn)賽上,憑借星辰語音識(shí)別大模型的領(lǐng)先技術(shù),中國電信人工智能研究院語音團(tuán)隊(duì)斬獲語音識(shí)別賽道冠軍。在業(yè)內(nèi)知名的多方言語音識(shí)別數(shù)據(jù)集KeSpeech任務(wù)上,星辰語音大模型打破紀(jì)錄,領(lǐng)先之前最優(yōu)結(jié)果20%,以高達(dá)92.97%的字準(zhǔn)確率刷新最優(yōu)結(jié)果。同時(shí)在NIST(美國國家標(biāo)準(zhǔn)與技術(shù)研究院)組織的Babel低資源語音識(shí)別項(xiàng)目電話粵語賽道上,刷新記錄取得目前業(yè)內(nèi)最好結(jié)果。極佳的性能保證用戶與星辰語音大模型對(duì)話,無需刻意切換普通話,也無需提高音量放慢語速,可以像和家人講話一樣自然地暢所欲言。
勇?lián)肫笫姑袊娦糯罱ˋI時(shí)代溝通橋梁
隨著AI技術(shù)高速發(fā)展,人們享受著智能化、無人化服務(wù)的便利。然而,老少邊窮地區(qū)及很多老人,由于方言限制,正逐漸被AI時(shí)代拋棄。中國電信堅(jiān)定地承擔(dān)央企責(zé)任,用AI搭建溝通的橋梁,讓每一個(gè)人都能享受AI時(shí)代便利。同時(shí),中國電信有幾億用戶和豐富應(yīng)用場景,天然具備數(shù)據(jù)飛輪飛速轉(zhuǎn)動(dòng)的優(yōu)勢,無疑將促進(jìn)技術(shù)更快進(jìn)步,更好地服務(wù)每一個(gè)人。
據(jù)悉,星辰語音大模型已廣泛應(yīng)用落地。星辰語音大模型已在福建、江西、廣西、北京、內(nèi)蒙等地的中國電信萬號(hào)智能客服試點(diǎn)應(yīng)用,接入星辰大模型以后,萬號(hào)智能客服秒懂30種方言,自然流暢地服務(wù)用戶,實(shí)現(xiàn)日均處理約200萬通電話;智能客服翼聲平臺(tái)接入星辰大模型的語音理解和分析能力,實(shí)現(xiàn)31省全覆蓋,每天處理125萬通客服電話。此外,星辰語音大模型還落地多地市的12345平臺(tái),賦能客服人員秒懂30種方言,更自然流暢理解更多市民需求,提升溝通效率,助力政務(wù)工作智能化升級(jí),更高效、便捷地為每一位市民提供服務(wù)。
在中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,星辰語音大模型讓數(shù)字人“能聽會(huì)說”,數(shù)字人“數(shù)數(shù)”,聲音甜美生動(dòng)、與康輝同臺(tái)主持,中英文隨意切換的,交流對(duì)話自然流暢,廣受好評(píng)。
星辰語音大模型現(xiàn)已對(duì)外開源,攜手合作伙伴及個(gè)人開發(fā)者,開發(fā)面向更多場景的應(yīng)用,共同守護(hù)方言、傳承語言文化,助力AI普惠。未來,中國電信人工智能研究院將持續(xù)深耕研發(fā)創(chuàng)新,不斷提高支持方言的數(shù)量和準(zhǔn)確度,計(jì)劃建成首個(gè)覆蓋全國333個(gè)地市方言和主要少數(shù)民族語言的語音識(shí)別大模型,切實(shí)讓老少邊窮、老年人等每個(gè)人都能享受到AI時(shí)代的便利。