飛象網(wǎng)訊 近日,中國互聯(lián)網(wǎng)協(xié)會在北京舉辦第六屆“數(shù)字發(fā)展論壇”。論壇以“數(shù)據(jù)要素驅動高質量發(fā)展”為主題,匯聚國內200余位頂尖專家學者、行業(yè)精英和企業(yè)代表,深入交流與探討數(shù)字發(fā)展趨勢、機遇挑戰(zhàn)、案例經(jīng)驗,國務院原副秘書長江小涓、中國工程院院士鄔賀銓等專家參會。中國電信科技委主任邵廣祿應邀在論壇中進行“AI和數(shù)據(jù)驅動,加速高質量發(fā)展”主旨演講,分享了中國電信在人工智能和數(shù)據(jù)開放方面的實踐和體會。
中國電信科技委主任、中國電信集團原總經(jīng)理邵廣祿
科技革命引發(fā)全要素生產(chǎn)率(TFP)快速提升的“蝴蝶效應”,蒸汽機、電力、IT互聯(lián)網(wǎng)是歷史上三次科技革命的“蝴蝶”,邵廣祿指出,人工智能將成為新的“蝴蝶”推動新一輪科技革命和產(chǎn)業(yè)變革,AI和數(shù)據(jù)驅動正催生市值數(shù)量級增長的企業(yè)。在人工智能發(fā)展過程中,面臨高性能與異構算力、高質量數(shù)據(jù)集等挑戰(zhàn)。在實踐中,中國電信總結算力方面需要攻克很多技術難點,譬如萬卡集群線性加速、網(wǎng)絡與調度能力、穩(wěn)定性與故障恢復能力、并行資源調度能力等。中國電信在AI產(chǎn)業(yè)早布局,快發(fā)展,全面布局AI大模型,持續(xù)攻克萬卡算力、息壤算力調度平臺、數(shù)據(jù)要素平臺、星辰系列大模型以及行業(yè)大模型等核心技術,并積極開源星辰大模型和開放中文數(shù)據(jù)集 TeleChat-PTD。
在人工智能由“模型中心”轉向“數(shù)據(jù)中心”過程中,邵廣祿指出,數(shù)據(jù)集是大模型構建的基石,在大模型開發(fā)中越來越重要。面對數(shù)據(jù)集構建中“量不足、質不高、用不暢”的三大挑戰(zhàn),在實踐中,我們總結發(fā)現(xiàn)高質量的數(shù)據(jù)集的生產(chǎn)是個系統(tǒng)工程,會涉及六個方面。一是數(shù)據(jù)底座,包含云、網(wǎng)、隱私計算等;二是數(shù)據(jù)采集,當前網(wǎng)頁數(shù)據(jù)比較成熟,但中文數(shù)據(jù)質量不高,特別需要生態(tài)合作開放數(shù)據(jù)集,如政府、事業(yè)單位及垂直領域的數(shù)據(jù)。三是數(shù)據(jù)預處理和分級分類。四是數(shù)據(jù)標注,需要產(chǎn)業(yè)化發(fā)展來提供更大范圍更高質量的數(shù)據(jù)集。五是預訓練的配比。六是高質量數(shù)據(jù)集的篩選。這六大方面對大模型的性能與準確度和智能水平具有決定性影響。
同行同業(yè)的數(shù)據(jù)集合就是行業(yè)的數(shù)據(jù)集,其價值遠高于一個企業(yè)的數(shù)據(jù)價值,數(shù)據(jù)價值倍增。邵廣祿提到,中國電信與溫州醫(yī)療合作數(shù)據(jù)開放共享,大力提升醫(yī)療水平,如通過AI質控提高圖像質量來避免患者重復檢查;中國電信與中國聯(lián)通通過5G共建共享合作實踐,三年節(jié)省千億數(shù)量級投資,每年節(jié)省百億數(shù)量級運營成本。
邵廣祿提出,通過開源開放、共享資源、共享收益,來減少企業(yè)重復建設和成本投入,促進數(shù)據(jù)集的共建共享,促進人工智能大模型的共建共享,通過AI和數(shù)據(jù)驅動,加速高質量發(fā)展。