飛象網(wǎng)訊(魏德齡/文)隨著ChatGPT的風(fēng)靡,讓很多人發(fā)現(xiàn)AI離自己如此之近,流暢的外文翻譯、包含從1-4的簡單小作文,一下讓AI從只聞其聲,不見其影的高科技,變身為觸手可及的生活小助手。
其實AI在手機上的應(yīng)用并非什么新鮮事,很多年前當(dāng)用戶打開攝像頭,界面中就能識別出拍攝物體的種類,其中就有AI的一份功勞。然而這種能力并未讓用戶感到不可或缺,或是能為工作與生活帶來質(zhì)的改變。
但今年以來Stable Diffusion在智能手機上的功能演示,卻無疑帶來了更多遐想。
體驗迎來新契機
作者頭一陣恰好體驗了運行在Android手機上的Stable Diffusion終端側(cè)演示,僅僅通過一臺與目前市面上主流旗艦手機配置相當(dāng),搭載第二代驍龍8機型的手機,通過輸入一段文本描述后,等待約10多秒鐘左右,就能眼見其從模糊到清晰的創(chuàng)作出一張圖畫。
整個過程完全在終端側(cè)運行,無需借助云端的AI算力。要知道,如今以ChatGPT為代表的云端計算壓力可謂不小,登陸暫緩都是常有的事,為此不少高粘性用戶則開始選擇購買更高階的會員。但對于普通用戶來說,其對功能的要求,可能不至于非要每月花上20美元。
在Stable Diffusion終端側(cè)演示中,高通從Hugging Face的FP32 1-5版本開源模型入手,通過量化、編譯和硬件加速進行優(yōu)化,使其能在搭載第二代驍龍8移動平臺的手機上運行。通過全棧優(yōu)化最終讓Stable Diffusion能夠在智能手機上運行,在15秒內(nèi)執(zhí)行20步推理,生成一張512x512像素的圖像。這是在智能手機上最快的推理速度,能媲美云端時延,且用戶文本輸入完全不受限制。
蘋果公司在去年年底同樣在 macOS 13.1 和 iOS 16.2 中發(fā)布了針對 Stable Diffusion 的 Core ML 優(yōu)化,并通過一個代碼庫對部署過程進行了詳細講解。在三款蘋果設(shè)備(M1 iPad Pro 8GB、M1 MacBook Pro 16GB、M2 MacBook Air 8GB)上的測試結(jié)果表明,蘋果推出的相關(guān)優(yōu)化基本可以保證最新版 Stable Diffusion(SD 2.0)在半分鐘內(nèi)生成一張同樣分辨率為512x512像素的圖。這無疑也為未來蘋果將Stable Diffusion功能在自家設(shè)備中實現(xiàn)本地化運行奠定了基礎(chǔ)。
正在凸顯的手機AI能力
實際上,目前移動端的AI能力已經(jīng)在一些工作上凸顯出來。例如在iPad上擁有很多摳取視頻中圖像的App,以往這項在電腦端需要較大精力的工作,借助搭載M1/M2芯片iPad上的神經(jīng)網(wǎng)絡(luò)引擎,能夠輕松的對目標圖像進行摳取,并實現(xiàn)相關(guān)特效效果。進而致使很多人開始使用iPad先行制作一些特效,然后再將素材傳輸至電腦端與其他素材一并進行二次剪輯。
以M1芯片為例,相較于蘋果之前所采用的處理器,機器學(xué)習(xí)的速度提升了15倍,這源于蘋果專門為其加入了神經(jīng)網(wǎng)絡(luò)引擎,采用16核架構(gòu),每秒能進行 11 萬億次運算。在運行視頻分析、語音識別以及圖像處理等任務(wù)時的處理速度都能實現(xiàn)明顯提升。
以驍龍8系處理器為代理的Android陣營,在近年來的AI能力同樣在翻倍提升。上文中能夠流暢運行Stable Diffusion本地演示的第二代驍龍8,其AI 引擎的主要組成部分Hexagon 處理器專門升級了微切片推理和更大的張量加速器,采用專用供電系統(tǒng),并首次在手機端實現(xiàn) INT4 精度格式的支持,因此在 AI 推理時性能最多可以提高4.35倍,能效提升60%。新增的微切片推理功能,恰恰能夠幫助Stable Diffusion等大型模型高效運行。
愛奇藝出品的真人秀節(jié)目《元音大冒險》中則展現(xiàn)出了AI說帶來的全新體驗提升,在節(jié)目攝制中,借助搭載驍龍旗艦手機所支持的高通AI引擎,及其專門面向AI神經(jīng)網(wǎng)絡(luò)的硬件加速單元等技術(shù)的支持下,僅僅通過一個頭盔及一部搭載驍龍芯片的智能手機,即可將所有的細節(jié)、場景、表情精準地映射至“元音大陸”中。據(jù)悉,驍龍8系移動平臺搭載高通AI引擎,具備行業(yè)領(lǐng)先的終端側(cè)AI性能和能效比,可以支持基于300個人臉特征點的檢測,在為節(jié)目制作提供強有力的支持和保障同時,也降低了節(jié)目制作的技術(shù)門檻與成本。
在PC設(shè)備更新?lián)Q代頻率早就遠遠落后于智能手機的當(dāng)下,智能手機的本地AI能力將更加凸顯,實時了解到智能用戶在拍什么的AI,實現(xiàn)了比相機更加優(yōu)秀的成像效果。對圖形的理解能力,造就了比電腦更強的視頻創(chuàng)作能力,方便好用的邊緣側(cè)AI能力正在到來。
方便好用的邊緣側(cè)AI能力
近期,借助AI接口所開發(fā)的小型應(yīng)用不斷涌現(xiàn),相比于登陸賬號、問問題的方式,將功能聚焦在了如文章翻譯這一熱門使用場景,用戶可以通過App像使用以往的那些翻譯應(yīng)用一樣,快速進行使用,且在準確率與流暢度上有了大幅提升。
對于云端AI計算而言,其所面向的用戶群更多為企業(yè)或研究機構(gòu),針對藥物研發(fā)、基因工程、數(shù)字孿生模擬等行業(yè)領(lǐng)域,都需要超強的算力作為保障,才能在更短的時間內(nèi),獲得研究人員想要的結(jié)果。而普通用戶使用頻次更高的語音轉(zhuǎn)文字、翻譯、文章或圖畫創(chuàng)作,通過邊緣側(cè)AI能力,能夠獲得更快的響應(yīng)速度,擺脫了部分云連接的束縛,整體體驗也能獲得更好的提升。
有業(yè)內(nèi)人士預(yù)計,今年年底或明年年初,消費市場將會為了獲得更強的AI能力而購買新的終端產(chǎn)品,AI將引爆新的終端需求。于此同時,今年的芯片產(chǎn)品也將繼續(xù)在AI性能上實現(xiàn)更大幅度的升級,來滿足圍繞AI而產(chǎn)生的相關(guān)用例的爆發(fā)。
試想一下,未來用戶通過手機就能自動生成一個有趣的配圖,用于社交媒體內(nèi)容、文章配圖、工作演示等不同用途。這些功能又需要以移動設(shè)備的本地AI能力作為依托,用戶為了加速十多秒的等待,可能會購置更強AI性能的手機,或許目前智能手機的需求瓶頸將通過AI得以解決。