飛象原創(chuàng)(魏德齡/文)2024年,生成式AI迎來了從“能用”到“好用”的飛躍,徹底改變了人們對人工智能的認知。AI技術(shù)通過不斷進化的交互方式和強大的生成能力,正在深入改變?nèi)祟惖墓ぷ、生活以及科技生態(tài)。與此同時,生成式AI也面臨著能耗壓力、企業(yè)級落地挑戰(zhàn)和模型“黑盒”難題等隱憂。在新技術(shù)的推動下,AI不再是冷冰冰的工具,而是成為了生活中充滿溫度與智慧的助手。然而,這場技術(shù)革命帶來的,不僅僅是人機交互的體驗提升,更是一場從能力進化到責任擔當?shù)纳羁套兏铩?
發(fā)展現(xiàn)狀:AI從未如此好用
也許在去年還有人會懷疑所謂的生成式AI無非就是一個升級版的語音助手,其背后的原理僅僅是一個無比龐大的數(shù)據(jù)庫而已。但當時間來到2024年,生成式AI通過自身的能力升級與實力展現(xiàn),呈現(xiàn)了一個AI從未如此好用的新階段。
現(xiàn)狀1體驗升級:ChatGPT 4o引領(lǐng)新拐點
盡管有業(yè)內(nèi)知情人士透露,ChatGPT 4o僅僅是OpenAI公司的一個后手,但5月13日的發(fā)布會絕對稱得上是攪動整個AI行業(yè)的一個重要時間點。
作為OpenAI 推出的全新多模態(tài)模型, GPT-4o具備同時接受文本、音頻和圖像作為輸入,并生成上述媒介輸出的強大能力。這種進步讓人機交互更加貼近人與人之間的自然對話,極大提升了語音交互體驗。GPT-4o 的響應(yīng)速度極快,音頻輸入的平均回應(yīng)時間為320毫秒,與人類對話的反應(yīng)時間相當,而在視覺和音頻理解方面表現(xiàn)尤為卓越,能夠生成多種音調(diào)并帶有情感化表達。此外,該模型支持在線視頻通話,為用戶實時解答問題,并實現(xiàn)對話的動態(tài)打斷與流暢銜接,優(yōu)雅處理語音交互中的語調(diào)、背景噪聲及多說話者情境,填補了傳統(tǒng)語音助手延遲大、信息丟失嚴重的體驗缺陷。與之前的語音助手(如Siri)的三階段處理機制不同,GPT-4o 通過一個統(tǒng)一的神經(jīng)網(wǎng)絡(luò)直接實現(xiàn)音頻、圖像、文字和視頻的實時轉(zhuǎn)換,帶來全新的跨越式體驗。
GPT-4o 在性能上與 GPT-4 Turbo 不相上下,尤其在非英語文本處理、API響應(yīng)速度和經(jīng)濟性方面表現(xiàn)優(yōu)異,API價格較前代降低50%。這一模型適用于文本分析、數(shù)據(jù)可視化、圖像解讀等多場景應(yīng)用,且免費用戶即可體驗 GPT-4o 的強大功能,包括通過 GPTs 和 GPT Store 訪問更多工具、上傳文件獲取分析,以及利用記憶(Memory)構(gòu)建個性化互動體驗。
技術(shù)升級的最直觀變化在于,通用人工智能可以低門檻的來學習用戶所提供的專業(yè)內(nèi)容資料,通過這些以往難以接觸到的行業(yè)數(shù)據(jù),來生成出更加符合使用者預(yù)期的內(nèi)容,無論是文字、圖片,GPT-4o的出現(xiàn)讓人們見識到AI更加可用性的一面,而不再是經(jīng)常出現(xiàn)“外行看著內(nèi)行,內(nèi)行看著外行”的奇怪創(chuàng)作表現(xiàn)。
現(xiàn)狀2用例大爆發(fā):生成式AI融入多場景
生成式AI所帶來的用例大爆發(fā)可謂是全方位的,AI視頻生成同樣是一個十分明顯的案例。如今,人們已經(jīng)偶爾會在網(wǎng)上看到通過AI生成的,并且內(nèi)容生動有趣的視頻內(nèi)容。AI視頻生成正從傳統(tǒng)的檢索生成和局部生成,逐步邁向依靠自然語言提示詞的全量生成。這種技術(shù)趨勢讓生成內(nèi)容更加靈活和豐富,顯著拓寬了應(yīng)用場景。檢索生成主要基于現(xiàn)有素材,通過標簽匹配和排列組合完成,具有一定效率但生成內(nèi)容較受限。局部生成則能針對視頻特定部分進行編輯,例如調(diào)整角色、背景、風格或添加特效,雖有創(chuàng)意性提升,但依然局限于預(yù)設(shè)元素。相比之下,提示詞生成基于大規(guī)模模型,借助自然語言輸入即可生成全新的視頻內(nèi)容,包括風格化場景、藝術(shù)效果或動畫設(shè)計,極大擴展了創(chuàng)作空間和靈活性。這種新技術(shù)不僅提升了生成效率,還大幅降低了成本,為多領(lǐng)域應(yīng)用提供了無限可能。
國內(nèi)的生成式AI產(chǎn)品同樣能夠看到從能用到好用的趨勢,科大訊飛發(fā)布的訊飛星火大模型4.0 Turbo在數(shù)學能力和代碼能力上取得了重大突破。根據(jù)行業(yè)實用數(shù)學任務(wù)構(gòu)建的測試集CAppliedMath-1.0,訊飛星火4.0 Turbo在計算、財務(wù)、金融、度量等多個維度的任務(wù)中均超過GPT-4o水平,已完成超長思維鏈、樹搜索和自我反思評價等算法驗證;根據(jù)代碼生成HumanEval測試集上的效果對比,訊飛星火4.0 Turbo在Python、Java、JavaScript等任務(wù)上和GPT-4o的差距微弱,在C++能力上超過GPT-4o,同時推出星火代碼7B版本,滿足代碼生成、代碼補全等極速響應(yīng)型任務(wù),效果業(yè)界最優(yōu)。
2024年,生成式AI技術(shù)正快速從“能用”邁向“好用”和“實用”,以GPT-4o和訊飛星火大模型4.0 Turbo為代表的新一代多模態(tài)模型,顯著提升了跨媒介交互體驗、生成效率及準確性,廣泛應(yīng)用于文本分析、數(shù)據(jù)可視化、代碼生成等領(lǐng)域,推動了AI更貼近人類需求的全面發(fā)展。然而,在技術(shù)持續(xù)突破的同時,AI的發(fā)展也面臨諸多挑戰(zhàn),例如高能耗帶來的環(huán)境負擔、模型思維過程的“黑盒”特性導致的透明性不足,以及如何在企業(yè)級場景中實現(xiàn)更高價值的落地。
挑戰(zhàn):能力越大,隱憂越大
在超級英雄電影中,有這樣一句膾炙人口的臺詞:“能力越大,責任越大”。不過,對于AI來說,隨著能力的增強,所對應(yīng)的責任一面,也同樣代表著隱憂。下面的這一年中觀察到的問題,也同樣是業(yè)界在反復熱議的話題,AI的隱憂主要表現(xiàn)在三個問題上:
挑戰(zhàn)1算力與能耗:失效的摩爾定律
無論是云端AI還是端側(cè)AI,都正在讓摩爾定律失效,盡管AI的性能擁有可見性的飆升,但不妨重溫下該定律的全部描述:“半導體芯片上集成的晶體管數(shù)量每隔18到24個月翻一番,性能提升一倍,價格下降一半的現(xiàn)象!比缃馎I性能提升的背后,并不意味著價格或是成本會相對進行下降,代工制程升級的成本水漲船高,云端AI的提升方式也更多依賴于更多的GPU數(shù)量,并對應(yīng)了更大的能耗。
人工智能的掣肘之處已經(jīng)凸顯,那就是能耗問題。本質(zhì)上來說,ChatGPT的強大表現(xiàn)表源自于“大力出奇跡”。根據(jù)估算,GPT-4可能使用了約10,000至25,000張A100顯卡完成訓練,而Stability AI則使用了約5,000張A100,F(xiàn)alcon-40B僅需384張A100即可完成訓練。相比之下,Inflection通過3,500張H100顯卡訓練出了與GPT-3.5能力相當?shù)哪P。?jù)業(yè)內(nèi)人士透露,GPT-5的訓練可能需要30,000至50,000張H100顯卡,這一數(shù)字遠超現(xiàn)有模型的資源需求,進一步凸顯了先進AI模型對計算力的極高依賴。
算力增長所對應(yīng)的便是能耗。預(yù)估GPT-6的耗電將達700萬度。相比大型AI系統(tǒng)的百萬瓦級功耗和海量數(shù)據(jù)需求,而人類大腦則能以很小樣本和30瓦功耗實超高計算效率和識別。
這就意味著,AI算力背后所依附的數(shù)據(jù)中心正在面臨巨大的能耗壓力。有數(shù)據(jù)統(tǒng)計顯示,中國的數(shù)據(jù)中心正在面臨巨大的能耗問題,在2022年已經(jīng)接近2700億度的用電,預(yù)計到2025年會翻倍,達到4000億度電。這就意味著,到2025年,中國數(shù)據(jù)中心的能耗約等于4個三峽或葛洲壩的發(fā)電總量。
如果找不到解決途徑,算力的盡頭將會是能源。
挑戰(zhàn)2難有大作為的企業(yè)級領(lǐng)域
如今GenAI作為一種新的產(chǎn)品賣點,在消費電子領(lǐng)域確實風生水起,產(chǎn)品邏輯多為通過生成式能力帶來如系統(tǒng)交互、圖片處理、文字信息匯總等方面的升級。然而,當類似的邏輯應(yīng)用于企業(yè)級領(lǐng)域的時候,GenAI技術(shù)本身目前的種種不足之處,卻會被放大,從而成為了落地過程中的掣肘。
最大問題便是所謂的致幻率問題,“一本正經(jīng)胡說八道”的情況在消費電子領(lǐng)域或許可以被用戶一笑了之,但在IT運營管理的過程中,卻可鑄成大錯,當ToB領(lǐng)域?qū)τ诎踩院蜏蚀_性的要求變高,以及對高可靠性的要求,就難以有過多的容錯性。從而導致GenAI的方案可能難以被廠商最終采用。
準確性問題顯然與訓練數(shù)據(jù)的專業(yè)性與量級存在強關(guān)聯(lián),但企業(yè)往往并不愿意對外分享數(shù)據(jù),如何在構(gòu)建便利AI條件的情況下來平衡安全性和隱私性成為了比較大的挑戰(zhàn)。在使用相關(guān)GenAI來實現(xiàn)產(chǎn)出的時候,知識產(chǎn)權(quán)問題也應(yīng)運而生,生成的圖像、歸納的總結(jié)、構(gòu)建的代碼的知識產(chǎn)權(quán)到底屬于誰,企業(yè)對于此類的擔憂同樣一直與GenAI的發(fā)展而相生相伴。
GenAI的出現(xiàn)也在打破企業(yè)內(nèi)部的一些邊界,對于員工而言很容易自然而然地把如會議紀要、產(chǎn)品資料等內(nèi)容上傳在云端AI來快速獲取會議總結(jié)。企業(yè)難以遏制這種員工簡化工作流程的渴望,但對于合規(guī)與安全性又提出了更大挑戰(zhàn)。
這無疑影響了企業(yè)對于部署相關(guān)落地方案的決心與判斷。而從很多企業(yè)在今年所對外提供的AI解決方案也不難發(fā)現(xiàn),在產(chǎn)品功能上多聚焦于通過自然語言來優(yōu)化操作流程,并一般會避免讓A涉及到相關(guān)決策的環(huán)節(jié),此舉無疑也映襯了廠商對于自身產(chǎn)品信心的不足,顯示出企業(yè)級應(yīng)用仍有較長的探索與完善之路。
挑戰(zhàn)3神秘的思維黑盒
隨著生成式GenAI和深度學習模型的廣泛應(yīng)用,其強大的能力在自然語言處理、醫(yī)療診斷、自動駕駛等領(lǐng)域展現(xiàn)出巨大潛力。然而,這些技術(shù)的核心問題之一——思維“黑盒”特性——正在引發(fā)越來越多的關(guān)注。所謂“黑盒”,是指這些模型的推理過程高度復雜、難以解釋,對其內(nèi)部決策邏輯的透明度存在重大欠缺。這種特性不僅引發(fā)了學術(shù)界對AI可解釋性的討論,也對其在關(guān)鍵行業(yè)中的應(yīng)用構(gòu)成了顯著障礙。
大模型的“黑盒”特性源于其設(shè)計與運行方式。首先,模型通過多層神經(jīng)網(wǎng)絡(luò)捕捉數(shù)據(jù)中的復雜模式。這些多層抽象形成的高層次內(nèi)部表示往往不具備直觀的語義信息,難以被人類理解。其次,大模型采用分布式表示,信息以神經(jīng)元激活模式的形式存儲,任何單一神經(jīng)元都無法直接對應(yīng)具體的特征或概念。此外,非線性激活函數(shù)引入的非線性變換,使得模型在面對輸入數(shù)據(jù)微小變化時可能產(chǎn)生難以預(yù)測的輸出。最后,端到端學習方式雖然省去了人工設(shè)計特征的步驟,卻將特征提取與決策過程緊密集成,進一步加劇了模型的不透明性。
黑盒特性在某些關(guān)鍵領(lǐng)域可能會引發(fā)一系列問題。例如在自動駕駛領(lǐng)域,黑盒模型可能在突發(fā)情況下做出難以預(yù)測的決策,例如在面對未知路況或標志時,模型的錯誤反應(yīng)可能直接導致安全事故;蚴窃谀壳罢诖罅繃L試融入AI能力的金融行業(yè),黑盒模型如果被用于信用評估或風險管理,可能無法滿足監(jiān)管機構(gòu)的合規(guī)性要求,原因在于一旦模型拒絕了某一貸款申請,銀行卻無法提供拒絕理由。
盡管黑盒問題尚未徹底解決,學界和業(yè)界正在積極探索可能的解決方案。一些研究者嘗試通過可視化技術(shù)和模型簡化來揭示模型的內(nèi)部結(jié)構(gòu),另一些人則采用基于知識的解釋方式,為模型的決策提供更加直觀的解釋。
在相關(guān)技術(shù)實現(xiàn)之前,AI的黑盒特性仍是限制其在高風險領(lǐng)域大規(guī)模應(yīng)用的重要因素。
趨勢洞察:無限可能的AI未來
假如能力的另一面是隱憂的話,隱憂所對應(yīng)的則是需求與機遇。面向即將到來的2025年,AI的未來將會繼續(xù)引發(fā)出無限的可能性。在此,根據(jù)市場風向,可以預(yù)測以下三大趨勢:
趨勢1端側(cè)AI繼續(xù)牙膏爆擠
上文中已經(jīng)提到了云端AI所帶來的在數(shù)據(jù)中心側(cè)的壓力,與此同時當AI開始與眾多行業(yè)產(chǎn)生深度融合,對于時延性的要求也在提升,如果是像使用云端AI助手時的轉(zhuǎn)圈圈般的響應(yīng)表現(xiàn),甚至可能會引發(fā)安全隱患。
例如在通信領(lǐng)域,將AI融于AI系統(tǒng)設(shè)計之初幾乎已經(jīng)成為業(yè)界的普遍共識。但在對于AI與通信融合的思考中,接入網(wǎng)的實時性要求,也對AI在處理海量數(shù)據(jù)時的響應(yīng)速度提出了很大挑戰(zhàn)。如今以智能手機處理器在端側(cè)AI上的成果無疑提供了對應(yīng)的解題思路。有預(yù)測表示,未來的6G終端將利用端側(cè)AI能力,能夠在本地處理大量數(shù)據(jù),而不需要跟云端做過多的互通操作,這樣既可以保護隱私,又可以提高響應(yīng)速度。
端側(cè)AI的算力也在顯著提升,并且沒有依賴于更高的能耗。以驍龍8至尊版為例,搭載的全新架構(gòu)Hexagon NPU性能提升了45%,能效提升45%,基礎(chǔ)大語言模型上的token生成速率提升了高達100%?焖夙憫(yīng)方面,在目前業(yè)界流行的一些大語言模型上,驍龍8至尊版的處理速度達到超過70 tokens/s。在MLPerf BenchMarks測試中,相比驍龍8 Gen3,性能提升達到了104%。
受益于端側(cè)AI能力的不止于智能手機。在汽車領(lǐng)域,驍龍座艙至尊版集成的最新NPU,其性能相比8125提升至最高12倍,能夠處理高達幾十億參數(shù)的大語言模型,通過搭配檢索增強生產(chǎn)技術(shù),以及基礎(chǔ)模型,能夠?qū)崿F(xiàn)車輛維修助手、故障分析、問題上報等功能。在PC領(lǐng)域,驍龍X Elite 45TOPS的NPU算力和異構(gòu)計算架構(gòu),為開啟終端側(cè)生成式AI體驗提供了優(yōu)勢,讓驍龍X系列成為支持首批Windows 11 AI PC的平臺,讓個人用戶體驗更加智能和個性化。高通還在投資日期間透露了第三代Oyon CPU架構(gòu)的相關(guān)信息,預(yù)計明年在AI性能上還將帶來進一步的提升。
趨勢2功能從設(shè)想到現(xiàn)實
關(guān)于AI的設(shè)想,業(yè)界已經(jīng)開始試圖利用這項技術(shù)跳脫出以往思維的窠臼。變革傳統(tǒng)的交互方式就是一項正在從設(shè)想走向現(xiàn)實的案例進行時。其背后的技術(shù)根基在于AI已經(jīng)具備了看得懂、聽得懂、能理解的基本功,使其能夠?qū)崿F(xiàn)以往語音助手所不能達到的高度。
2024驍龍峰會上,高通總裁安蒙拋出了這樣一個觀點,他認為隨著AI將在終端設(shè)備上所帶來的體驗維度升級,所謂的“殺手級應(yīng)用”概念將不復存在,它只是一個過去式的思考問題的角度。未來,每個應(yīng)用都將借助AI實現(xiàn)融合與互通,具備“殺手級應(yīng)用”的潛力。2023年,他還曾就這一設(shè)想表示:“AI引擎在終端運行與云端交互,你可以在終端本地運行一個應(yīng)用,或者終端按照你的需求去云端交互。至此,大家看到了5G和AI是如何把一切都連接到一起。盡管我們有一個以應(yīng)用為中心的終端,但不一定需要所有應(yīng)用,它和云端整合就知道你的需求,你可以在終端或者云端上挑選應(yīng)用。”
在這一設(shè)想的落地方面,榮耀已經(jīng)成為最具代表的產(chǎn)品。其手機產(chǎn)品中的AI智能體,帶來了“一句話關(guān)閉自動續(xù)費”“一句話點飲品”“一句話旅行規(guī)劃與訂票”等顛覆性端側(cè)AI體驗,甚至在其中還能選擇出用戶最喜歡的產(chǎn)品類別,比如是美式還是拿鐵。Copilot+PC也正在煥發(fā)出新的潛力,用戶可以僅僅通過一張兒童畫般的草圖生成出海邊的風景,任意搜索全部文檔中的信息內(nèi)容,無論是文字、圖片,或是僅僅是一種關(guān)于物品的形容。以及在離線狀態(tài)下,也能即刻生成出相關(guān)美食必吃榜推薦的AI助手。
這種交互方式的變革已開始在企業(yè)級應(yīng)用中出現(xiàn),同樣是通過自然語言的方式來簡化運維過程中的操作。例如元景2.0中通過采用自適應(yīng)的表格拆分和整合,自動補齊了表頭和標題等信息,使表格問答的準確率提升了20個百分點;針對車牌號、故障碼等字符串查詢“找不對”的問題,元景2.0采用多路檢索融合的方式,使回答準確率提升近20個百分點。
隨著AI技術(shù)的快速發(fā)展,傳統(tǒng)的交互方式正在被重新定義,從設(shè)想到現(xiàn)實的轉(zhuǎn)變已然開始。在終端設(shè)備和云端深度融合的驅(qū)動下,AI不僅提升了用戶體驗的高度和廣度,也拓展了技術(shù)的應(yīng)用邊界。無論是在消費級市場上實現(xiàn)“一句話解決”的便捷操作,還是在企業(yè)級場景中優(yōu)化復雜任務(wù)處理流程,AI都展現(xiàn)出了強大的變革潛力?梢灶A(yù)見,未來的技術(shù)生態(tài)將以更加智能、個性化和高效的方式重塑人類與設(shè)備、服務(wù)的關(guān)系,真正實現(xiàn)“所想即所得”的數(shù)字化生活與工作體驗。
趨勢3企業(yè)級用例靜待花開
盡管企業(yè)級AI解決方案面臨種種技術(shù)本身的制約,但這一市場無疑在近年來成為了聚焦點。原因在于企業(yè)對于通用AI平臺難以建立信任,獨立定制的解決方案,由于采用了相對隔離式且專業(yè)度更高的數(shù)據(jù)庫,提升了隱憂之下的信心。
很多商業(yè)AI的底氣在于數(shù)據(jù),這意味著AI和一個企業(yè)的業(yè)務(wù)流程、運營管理深度融合,充分挖掘利用企業(yè)內(nèi)部和行業(yè)的數(shù)據(jù),釋放數(shù)據(jù)的價值和潛能,讓企業(yè)的決策運營更卓越、更智能,讓商業(yè)社會更高效。部分公司對于致幻問題的解決方式在于用企業(yè)核心的業(yè)務(wù)數(shù)據(jù)進行訓練,而且是一個真實的、實時的、準確的業(yè)務(wù)數(shù)據(jù)來訓練這個模型。
針對不同行業(yè)需求的定制化設(shè)定也是企業(yè)級AI們所集中表現(xiàn)出的特色,以思特奇九思⼤模型為例,為企業(yè)提供開發(fā)態(tài)、訓練態(tài)、運⾏態(tài)、運營態(tài)的全⽣命周期能⼒⽀持。針對特定⾏業(yè)和企業(yè)數(shù)據(jù)進⾏模型訓練,思特奇構(gòu)建1套智算基礎(chǔ)設(shè)施、1套⼤模型通⽤平臺、N個AI技術(shù)能⼒、X個應(yīng)⽤場景的思特奇⼈⼯智能體系總體架構(gòu)。
在安全領(lǐng)域,以AI對抗AI的概念同樣成為了新的共識性路徑。未來將成為AI對抗AI的時代,不可能光靠人力去進行事件響應(yīng),必須用AI來協(xié)助。網(wǎng)絡(luò)安全企業(yè)的產(chǎn)品框架中通過專為實現(xiàn)卓越安全分析與威脅防護而構(gòu)建的即開即用AI模型,安全團隊能夠創(chuàng)建自己的ML模型并將其集成到架構(gòu)體系中,從而實現(xiàn)欺詐檢測、安全研究、復雜數(shù)據(jù)可視化等獨一無二獨特的用例。
未來,企業(yè)級AI產(chǎn)品的發(fā)展將更加注重深度融合和個性化定制,以滿足不同行業(yè)和場景的復雜需求。AI不僅將成為企業(yè)生產(chǎn)力提升的核心驅(qū)動力,還將在業(yè)務(wù)創(chuàng)新中扮演重要角色。從定制化模型到實時數(shù)據(jù)驅(qū)動的智能決策平臺,企業(yè)級AI有望打破傳統(tǒng)工具的局限,成為企業(yè)管理和運營的全方位助手。
隨著AI技術(shù)的成熟,企業(yè)將更傾向于構(gòu)建專屬的私有化模型和獨立的智算基礎(chǔ)設(shè)施。這種模式能夠在保護數(shù)據(jù)隱私的前提下,充分挖掘數(shù)據(jù)價值,實現(xiàn)更高效的資源調(diào)配和風險控制。此外,隨著邊緣計算和混合云技術(shù)的普及,AI在企業(yè)級應(yīng)用中的分布式部署能力將進一步增強,為跨部門、跨區(qū)域的智能化協(xié)同提供技術(shù)保障。
結(jié)語:
生成式AI的迅速發(fā)展為各行業(yè)帶來了無限可能,也提出了新的挑戰(zhàn)。從多模態(tài)模型的跨越式提升到企業(yè)級場景中的深度融合,AI正在以更貼近人類需求的方式展開全面賦能。盡管面對能耗、隱私、可信性等諸多難題,這些技術(shù)正在推動全行業(yè)的數(shù)字化轉(zhuǎn)型與創(chuàng)新?梢灶A(yù)見,在接下來的發(fā)展中,生成式AI將通過更智能、更高效的應(yīng)用場景,將“技術(shù)想象”變?yōu)椤艾F(xiàn)實可能”,為未來社會構(gòu)建一個更加智能、便捷和可持續(xù)的世界。