從文本生成模型ChatGPT到文生視頻模型Sora,人工智能大模型的發(fā)展日新月異,行業(yè)門檻也不斷提高。筆者認為,在瞬息萬變的產(chǎn)業(yè)發(fā)展進程中,為了在全球AI競爭中占據(jù)優(yōu)勢,國內大模型的技術攻克變得迫在眉睫。
第一,保證訓練數(shù)據(jù)的質量和多樣性。一直以來,大模型的訓練依賴大量數(shù)據(jù),包括文本、語音、圖像、視頻等,也需要從公開數(shù)據(jù)集、合作伙伴和用戶互動中收集信息。高質量的訓練數(shù)據(jù)是大模型成功的關鍵之一,中國工程院院士高文指出,全球通用的50億大模型數(shù)據(jù)訓練集里,中文語料的占比僅為1.3%。解決中文數(shù)據(jù)不足和質量問題,以及如何獲取和處理多樣化數(shù)據(jù),成為行業(yè)面臨的一大挑戰(zhàn)。在此背景下,國內大模型公司可以積極尋求與各大中文內容平臺的合作,建立中文數(shù)據(jù)共享機制,以豐富中文語料庫。同時,應注重數(shù)據(jù)的清洗和標注工作,確保訓練數(shù)據(jù)的準確性和有效性。
第二,提升算力、顯卡、芯片等核心競爭力。隨著大模型的規(guī)模和復雜度不斷提升,對算力的需求也急劇攀升。緩解算力需求方面,國家發(fā)改委明確將數(shù)據(jù)中心和智能計算中心納入新型基礎設施建設的范圍,以加速算力供給基建化。頭部企業(yè)和研究機構也須在開發(fā)更高效的計算架構等方面加大投入。在顯卡和芯片研發(fā)領域,目前更多聚焦在頭部企業(yè)之間,這也是一條需要克服諸多阻礙的艱難道路。對此,企業(yè)之間可以加強合作與交流,共同攻克技術難題。同時,也需要加大對國產(chǎn)芯片的投資力度,鼓勵全國組建更多的產(chǎn)業(yè)集群,推動相關產(chǎn)業(yè)高質量發(fā)展。
第三,緩解AI大模型人才缺口。據(jù)《2023人工智能人才洞察報告》預測,到2030年,全國AI人才的需求將達到600萬人,而人才缺口卻達到400萬人,AI應用型人才培養(yǎng)已經(jīng)迫在眉睫。為了彌補這一缺口,建議高新科技企業(yè)與國內高校開展深度合作,共同制定人才培養(yǎng)計劃,為更多高校年輕人提供市場一線學習機會,吸引更多年輕人投身AI領域。此外,政府可以面向社會大眾,增加免費的AI基礎技能培訓機會,推動AI相關知識在各個領域的普及。
第四,尋找合適的商業(yè)化落地場景。目前,Sora等文生視頻模型的技術革新,正在加速AI同廣告、影視、游戲、短視頻等領域的融合。中國是全球最大的AIGC內容消費市場之一,還有大量商業(yè)潛力等待挖掘。為充分挖掘商業(yè)潛力,大模型公司可以積極尋求與各行業(yè)的合作機會,熟悉不同業(yè)態(tài)的AI需求,共同探索技術優(yōu)化和商業(yè)合作模式,推動AI技術在各個領域的廣泛應用,為行業(yè)發(fā)展創(chuàng)造更多機遇。
人工智能時代已經(jīng)到來,龐大的市場也意味著更多的機遇,隨著越來越多的資本入局,以及市場各方積極協(xié)作,我國大模型行業(yè)高質量發(fā)展未來可期。