在 RTE2024 第十屆實時互聯(lián)網(wǎng)大會主論壇上,聲網(wǎng)首席科學家、CTO 鐘聲帶來主題演講。他分享了關(guān)于 AI 基礎(chǔ)設(shè)施進化、AI 應用前景以及分布式端邊云結(jié)合的 AI 系統(tǒng)將如何成為現(xiàn)代基礎(chǔ)設(shè)施的基本形態(tài)等前沿技術(shù)上的實踐。
鐘聲認為,未來,AI 分身和 AI 助手可以讓我們每個人的時間稀缺性得到極大的緩解,生命體驗也會得到提升。技術(shù)的進步,使得內(nèi)容的生成、表達、分發(fā)和消費的效率也與時俱進,利用端邊能力結(jié)合云計算一起構(gòu)建更合理的實時 AI 系統(tǒng)將成為新的競爭熱點。
一個分布式端邊云結(jié)合的 AI 系統(tǒng)將把計算和傳輸在各節(jié)點做合理地配置,系統(tǒng)會智能地以自適應的方式把任務(wù)編排到端、邊、云或者其組合上執(zhí)行,可以非常有效地降低成本,同時在許多場景下也可以提供更低延時(低于1秒級的響應速度)、更高網(wǎng)絡(luò)抖動容忍度、優(yōu)秀的抗噪聲能力,并且完整的用戶數(shù)據(jù)只會保留在端上,是隱私保護的更好的機制。
同時,鐘聲還在大會現(xiàn)場演示了一個由STT、LLM、TTS 、RTC四個模塊組成的端邊結(jié)合實時對話AI智能體,這也是全球首次有廠商在比日常實際場景更具挑戰(zhàn)的環(huán)境下展示實時AI 對話能力。現(xiàn)場觀眾規(guī)模超過千人,面臨復雜的噪聲、回聲、麥克風延遲等困難,但智能體與鐘聲的互動仍然表現(xiàn)出了優(yōu)秀的對話能力,在普通5G網(wǎng)絡(luò)環(huán)境下實現(xiàn)了流暢、自然、有趣的雙向?qū)崟r對話,對話模型的極快響應速度、及時打斷與被打斷的自然程度、對抗噪聲能力、遵循語音指令做等待能力都非常突出。
以下內(nèi)容整理自,鐘聲在 RTE2024第十屆實時互聯(lián)網(wǎng)大會的演講:
過去三年,我和團隊一直在探索如何讓通信更智能化。在去年的 RTE 大會上,我分享了一個觀點,具備端邊實時智能的高清高質(zhì)量實時互動能力將成為新趨勢和競爭焦點。今天看來,依然如此。
信息傳播、消費與實時分布式智能
其實,人類進步歷史就是信息產(chǎn)生和傳播效率不斷提升的歷史。十幾萬年前,人們靠口口相傳的方式把部落的經(jīng)典故事做傳播,觸達范圍非常有限,口頭內(nèi)容表達也存在瓶頸。幾千年前,信息傳播方式進化成了把文字刻在石頭、竹簡、布匹和紙張上,但能夠觸達的人依然很少。
直到大約五百年前,印刷技術(shù)極大地改變了人類歷史走向,信息、知識、智慧乃至真理的傳播效率有了極大提升,書籍閱讀成了主要的消費方式,更多人也由此受益,并引發(fā)了一系列科學、宗教、工業(yè)革命和社會形態(tài)的變化。資產(chǎn)階級、社會主義隨之產(chǎn)生,公司這一形式也在那時出現(xiàn)并沿用至今。不過,由于書籍需要印刷、運輸,且難以預知哪些書暢銷以及哪里銷量大,內(nèi)容分發(fā)又成了瓶頸。
互聯(lián)網(wǎng)誕生后,內(nèi)容分發(fā)效率變得極高,專業(yè)人士生產(chǎn)的內(nèi)容(PGC)被數(shù)字化,消費方式變成了通過搜索獲取相關(guān)內(nèi)容,Google 等公司應運而生。隨著需求的增多,內(nèi)容供給側(cè)的生成又出現(xiàn)了瓶頸,由普通用戶生產(chǎn)的內(nèi)容(UGC) 隨后日益增多,如何篩選令人感興趣的內(nèi)容又成了用戶消費內(nèi)容時的瓶頸。于是基于算法推薦技術(shù),成就了Facebook、TikTok/抖音等新時代的典型社交媒體和平臺。進入算法推薦時代后,由于自媒體內(nèi)容魚龍混雜,對精品內(nèi)容的訴求成了各大平臺需要努力改善的新瓶頸。MCN 機構(gòu)打造的網(wǎng)紅、名師等有影響力的名人,也逐漸成為各大平臺重金挽留的對象。
近來,生成式 AI 的快速發(fā)展,有機會打破這一瓶頸,我們所聽、所看的東西也就有機會做到萬“視”如意。Vision Pro 的出現(xiàn)讓消費有了更沉浸式的體驗,如聚一堂。大量高清、高幀率的數(shù)據(jù)在網(wǎng)絡(luò)上傳輸促使實時傳輸也需要與時俱進。當這些瓶頸都解決后,大V、名師、名人就可以有分身,粉絲就能夠?qū)崿F(xiàn)與他們一一互動,進而緩解消費者對精品內(nèi)容的大量訴求。
未來,AI 分身和 AI 助手可以讓我們每個人的時間稀缺性得到極大的緩解,生命體驗也會得到提升。技術(shù)的進步,使得內(nèi)容的生成、表達、分發(fā)和消費的效率也與時俱進,利用端邊能力結(jié)合云計算一起構(gòu)建更合理的實時 AI 系統(tǒng)將成為新的競爭熱點。
大模型痛點:成本、隱私保護、用戶體驗
在已經(jīng)到來的 AI 時代,現(xiàn)代化基礎(chǔ)設(shè)施應該是什么樣?大量用戶設(shè)備往往會先接入邊緣節(jié)點、并在需要的時候再接入云端,數(shù)據(jù)將在端設(shè)備、邊緣節(jié)點和云之間往返傳遞。AI 時代的公有云數(shù)據(jù)中心會包含以大量異構(gòu)算力組成的超級計算集群(SuperScaler)。但是,停留在僅依賴超級計算集群的系統(tǒng)是遠遠不夠的,萬億參數(shù)、多模態(tài)引入所造成的高昂計算成本、缺乏機制約束的數(shù)據(jù)隱私保護、幾秒鐘的延時都將阻礙大模型的普惠,極大地限制其在很多場景下的應用。具體來說:
其一,成本高昂。目前大模型的 Scaling Law 還在繼續(xù),萬億級參數(shù)模型部署在公有云數(shù)據(jù)中心的超級集群上,以及多模態(tài)模型引入將造成成本進一步提升。從 OpenAI 的 GPT-4o 最近公布的價格來看,輸入端和輸出端分別是文字版本的10倍、20倍。假設(shè)一半時間是人在講話、另一半時間是 AI 在回答,每小時成本將會達到9美金,比很多國家的人工費都貴。
其二,缺乏數(shù)據(jù)隱私保護。當所有的數(shù)據(jù)傳到云端后,涉及個人倫理觀、道德觀、健康等敏感信息,雖然有數(shù)據(jù)合規(guī)相應法律法規(guī)限制,但在技術(shù)機制上是缺乏約束的。
其三,用戶體驗會受到影響。在大模型的運作模式下,很多情況下需要連接到公有云數(shù)據(jù)中心,這往往會導致更多的延時,同時也會使服務(wù)在更大概率上受到網(wǎng)絡(luò)狀況抖動的影響,僅僅依賴大型公有云的實時智能計算方案缺乏對實際使用場景的充分考量。
我認為,分布式端邊云結(jié)合的 AI 系統(tǒng)將有效解決這些痛點,在這個系統(tǒng)中,我們更強調(diào)在設(shè)備、邊緣上的能力,結(jié)合云端大模型能力一起構(gòu)建用戶場景。
端邊云結(jié)合AI系統(tǒng)如何解決大模型痛點?
當一個用戶在端上發(fā)起應用時,先對其做任務(wù)分析,得出任務(wù)難度的估計,再實時檢測環(huán)境信息,比如實時感知設(shè)備狀態(tài)(包括 CPU 和 GPU占比和 功耗情況)、實時感知網(wǎng)絡(luò)的延時、丟包以及擁堵情況等信息(可以通過實時通信系統(tǒng)進行偵測)、實時感知環(huán)境噪聲。
任務(wù)難度和和環(huán)境信息,被智能地用來幫助編排決定該任務(wù)在端上、邊緣端還是云端執(zhí)行,或者由二者、三者結(jié)合起來共同完成。
此外,所有個人數(shù)據(jù)存儲于設(shè)備上,經(jīng)過符號化(Tokenizing)和嵌入式(Embedding)處理,以嵌入式向量數(shù)據(jù)庫或知識圖譜的形式存在于端設(shè)備本地。
當實際應用場景發(fā)生時,個人信息能夠通過諸如檢索增強生成技術(shù)(RAG)從過往歷史中提取出相關(guān)片段,與當前應用的相關(guān)信息一同輸入給相應的AI模型。所以,即使數(shù)據(jù)送到云端,也僅僅是片段而已。
隨著技術(shù)的不斷進步,會有越來越多的任務(wù)在終端設(shè)備和邊緣端得以完成。這種方式能夠從技術(shù)機制層面為隱私數(shù)據(jù)提供更好的保護。
分布式端邊云結(jié)合的 AI 系統(tǒng)將把計算和傳輸在各節(jié)點做合理地配置,系統(tǒng)會智能地以自適應的方式把任務(wù)編排到端、邊、云或者其組合上執(zhí)行,可以非常有效地降低了成本,同時在許多場景下提供了更低延時(低于1秒級的響應速度)、更高網(wǎng)絡(luò)抖動容忍度、優(yōu)秀的抗噪聲能力,并且完整的用戶數(shù)據(jù)只會保留在端上,是隱私保護的更好的機制。
現(xiàn)場演示Demo中左邊兩個視頻是聲網(wǎng)部署于邊緣的自研 ASR 方案,兩個視頻的區(qū)別在于端上自研降噪能力的開關(guān)。右邊兩個是美國著名云廠商提供的 ASR 語音識別方案,也同樣分為端上降噪能力的開和關(guān)。
從對比視頻中可以看到兩點:第一,右邊的視頻比左邊的延遲多了3-4秒左右;第二,由于背景噪聲會造成模型理解能力的下降,所以在關(guān)閉降噪能力的情況下,兩種方案都有錯誤,開了降噪以后識別率均有所提升。
之所以說回聲消除最適合在端上做,原因是回聲消除采用的是原始信號作為參考信號,如果傳到云端就會經(jīng)過編解碼,信號會因此而變形。網(wǎng)絡(luò)抖動也可能造成參考信號不完整。當參考信號受損,回聲就很可能會泄露。因而在端設(shè)備上做回聲消除更合適。另外,降噪以后的信號通常更加容易壓縮和傳輸。
此外,端邊云結(jié)合的 AI 系統(tǒng)也可以在視頻中帶來好的體驗和成本降低。剛才有提到,Vision Pro提供了沉浸式的體驗,未來要想體驗好,就需要極高的分辨率和幀率,如果按照每秒90幀、4K 、雙目視頻來直接生成視頻會帶來大量計算,進一步加大成本壓力。我們的解決方案就是先讓服務(wù)器端生成低分辨率、低幀率的視頻,傳輸?shù)绞謾C端和邊上后再利用超分、插幀等能力恢復高清體驗。
未來 AI 基礎(chǔ)設(shè)施要素
未來,從設(shè)備到邊緣服務(wù)器再到云端,每個節(jié)點要做的不僅是傳輸,還需要加上計算能力,促使任何數(shù)據(jù)都有可能在多個數(shù)據(jù)表達形式之間轉(zhuǎn)換。未來的 AI 基礎(chǔ)架構(gòu)需要具備這樣的能力。
相應的傳輸協(xié)議也應有所更新,以便支持更多形態(tài)的數(shù)據(jù)格式,比如Token, embedding向量等。在新的架構(gòu)下,端到端的調(diào)度和編排能力,動態(tài)地、自適應地對任務(wù)需求進行調(diào)整都是必須的。并且可以綜合考慮隱私保護以及成本,再選擇適合應用場景的最佳配置。
實時通信系統(tǒng)以現(xiàn)有的帶寬估計(BWE)、擁塞控制算法(CC)、前向糾錯(FEC)、自動重傳請求(ARQ)等能力,為在具有挑戰(zhàn)的網(wǎng)絡(luò)條件下實現(xiàn)可靠的實時傳輸提供質(zhì)量保障。
另外,AI 大模型同樣需要考量抗丟包能力。數(shù)據(jù)能夠完整地傳輸至大模型始終只是一種理想假設(shè),實際場景并非如此,必然會出現(xiàn)丟包、擁堵以及延時等情況。這些都是新的傳輸層面基礎(chǔ)設(shè)施必須加以考慮的問題。
AI 基礎(chǔ)設(shè)施還有一些其它要素:
允許多云策略。無論出于應用場景的特殊需求還是價格因素考慮,應用可能需要通過多云策略以調(diào)用多云服務(wù),來提高靈活性或者更好的價格選擇。當把若干模型分布到多個云上時,不僅會增加延時,也會讓服務(wù)受到網(wǎng)絡(luò)變化的影響。所以,端、邊緣和云設(shè)備之間的快速切換是很重要的能力。實時的對網(wǎng)絡(luò)、設(shè)備的感知,以及出問題時的快速響應都是保證服務(wù)質(zhì)量所必需的。深度異構(gòu)計算模型的優(yōu)化,尤其是在終端和邊緣端的能力優(yōu)化,將極大地拓展體驗并提升合理的可支付成本的能力。
在模型深度優(yōu)化和加速方面。傳統(tǒng)的模型深度優(yōu)化是通過剪枝、量化、蒸餾、稀疏等形式,但新的思路和算法仍然有層出不窮的探索。以 RWKV 模型舉例,RWKV 其實是 Transformer 模型的變種,它把計算量從注意力機制的二維矩陣運算變成了一維線性運算,讓復雜度有效降低。
生成式視頻模型也有 Consistency Model (一致性模型),它可以把擴散模型傳統(tǒng)需要的若干步變成一步,有效降低計算的時間和計算量。
GPT-o1的推出也對推理計算有新的要求, 它是一個慢思維的過程,允許多步推理,而且會在每一步推理過程中評估中間結(jié)果是否合適,從而引導最終的結(jié)果走向更好的方向。這和強化學習的思路很一致,我們甚至可以把多步思維的推理過程數(shù)據(jù)收集起來重新訓練模型,這樣模型一步推理的能力還會有提升。
理論上,當推理的步驟或嵌入向量的維數(shù)增加,都對模型能力有極大的幫助。相反,如果缺乏足夠的推理步數(shù),缺乏足夠的嵌入式向量數(shù)據(jù)的長度,能夠解決的問題會有局限。當然,任何給定的模型參數(shù)量以及表達精度理論上會存在解決問題能力的上限,但因為缺乏理想的數(shù)據(jù)和足夠好的訓練方法,達到這一上限其實不容易,往往只能達到部分能力。
這時,通過思維鏈(CoT)或者允許多步推理的方式,每一步都需要有一個引導的獎勵函數(shù)評判怎么走,最終結(jié)果會更好;蛘呙扛粢欢螘r間搜集更好的數(shù)據(jù),微調(diào)模型也可以逐漸讓模型能力提升,逼近理論上限。
任務(wù)復雜度和意圖分析是在端上發(fā)揮能力的一個重要模塊,可以通過訓練一個模型去給任務(wù)復雜度打分的方式來實現(xiàn)。復雜度分析用已知的數(shù)據(jù),知道真實的、最好的答案是什么,然后用已知的數(shù)據(jù)把模型訓練出來,假設(shè)它具備一定的泛化能力,就可以用在未知的任務(wù)中進行判斷。
端邊云結(jié)合 AI 系統(tǒng)將最大限度滿足用戶需求
一個好的 AI Agent 應該具備推理、規(guī)劃、做決策、用工具、采取行動等能力,通常會有若干模型選擇來完成任務(wù),在通信上也有相應的網(wǎng)絡(luò)連接。聲網(wǎng)兄弟公司 Agora 和 RTE 開發(fā)者社區(qū)一起做了 TEN Framework 開源框架, 它采用的是實時通信傳輸網(wǎng)絡(luò),并允許做一些模塊化、積木式的選擇,如果用它和人進行類比,大家可以把它的五官,比如嘴巴、耳朵、眼睛、形象、大腦和記憶都置換成相應的應用場景所需要的形式和能力。TEN Framework 提供了圖形編輯器 Graphic Designer,無需寫代碼,通過拖、拉、拽的方式就可以完成智能體的構(gòu)建,輸出相應的 Pipeline。
我們首先做一個邊云結(jié)合AI Agengt系統(tǒng)的演示。演示視頻中就是通過 TEN Framework 把 RTC、STT(語音轉(zhuǎn)文字)、LLM(大語言模型)、TTS(文字轉(zhuǎn)語音)、Video Gen(視頻生成)五個模塊串到了一起。其中中間三個都是在公有云端,而且是不同的供應商的,所以往云端來回跑了三個來回。另外兩個(RTC 和 Video Gen)是部署在北美的邊緣機房,實驗是在上海做的,延時大致2秒左右,通過將實時傳輸和視頻生成放在邊緣上做,已經(jīng)能夠有效地把延時減下來,否則延時大致是4秒。
接下來是端邊結(jié)合的AI Agent演示。從現(xiàn)場這個演示,可以看出這個對話AI智能體已經(jīng)具備了幾個突出能力。一是響應很快,另外打斷和被打斷很自然,第三是我讓她等待時,她能等待不再搶話。這個實驗中 RTC、STT(語音轉(zhuǎn)文字)、LLM(大語言模型)、TTS(文字轉(zhuǎn)語音)這四個模塊都部署在北美(加拿大)的邊緣上,另外,在設(shè)備端做了降噪和回聲消除。
事實證明,端邊云結(jié)合的方案,在某些應用場景上,因為減少了網(wǎng)絡(luò)條件帶來的干擾,不僅速度更快,算力和成本也有變得更少?赡苡行└鼜碗s的任務(wù)仍需要利用公有云上更大的模型,但我相信只有端邊云結(jié)合才能最大限度地滿足各種用戶的需求,也能夠最大限度地釋放包括云端大模型在內(nèi)的能力。
Meta 最近推出了 AR 眼鏡 Orin,僅重98克有7個攝像頭,但是價格很貴。可以預見的是,未來還會有很多端設(shè)備出現(xiàn)。隨著端設(shè)備的多樣化以及能力提升,我們將會有一個越來越合理合理優(yōu)化的 AI 基礎(chǔ)設(shè)施,使得 AI 無處不在。我們可以利用 AI 分身和 AI 助手有效地、更多地服務(wù)和幫助我們,甚至是無限參與。屆時,便可以有效緩解時間的稀缺性,并改善工作和生活體驗。