首頁(yè)|必讀|視頻|專訪|運(yùn)營(yíng)|制造|監(jiān)管|大數(shù)據(jù)|物聯(lián)網(wǎng)|量子|元宇宙|博客|特約記者
手機(jī)|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計(jì)算|芯片報(bào)告|智慧城市|移動(dòng)互聯(lián)網(wǎng)|會(huì)展
首頁(yè) >> 人工智能 >> 正文

AI大模型的語(yǔ)言不平等:英語(yǔ)最便宜,其它語(yǔ)言要貴得多

2023年7月31日 09:00  IT之家  作 者:遠(yuǎn)洋

用戶所使用的語(yǔ)言對(duì)于大型語(yǔ)言模型(LLM)的費(fèi)用有很大的影響,可能造成英語(yǔ)使用者和其它語(yǔ)言使用者之間的人工智能鴻溝。最近的一項(xiàng)研究顯示,由于 OpenAI 等服務(wù)所采用的的服務(wù)器成本衡量和計(jì)費(fèi)的方式,英語(yǔ)輸入和輸出的費(fèi)用要比其他語(yǔ)言低得多,其中簡(jiǎn)體中文的費(fèi)用大約是英語(yǔ)的兩倍,西班牙語(yǔ)是英語(yǔ)的 1.5 倍,而緬甸的撣語(yǔ)則是英語(yǔ)的 15 倍。

推特用戶 Dylan Patel(@dlan522p)分享了一張照片,展示了牛津大學(xué)進(jìn)行的一項(xiàng)研究,該研究發(fā)現(xiàn),讓一個(gè) LLM 處理一句緬甸語(yǔ)句子需要 198 個(gè)詞元(tokens),而同樣的句子用英語(yǔ)寫只需要 17 個(gè)詞元。詞元代表了通過(guò) API(如 OpenAI 的 ChatGPT 或 Anthropic 的 Claude 2)訪問(wèn) LLM 所需的計(jì)算力成本,這意味著緬甸語(yǔ)句子使用這種服務(wù)的成本比英語(yǔ)句子高出 11 倍。

詞元化模型(即人工智能公司將用戶輸入轉(zhuǎn)換為計(jì)算成本的方式)意味著,除了英語(yǔ)之外的其他語(yǔ)言使用和訓(xùn)練模型要貴得多。這是因?yàn)橄裰形倪@樣的語(yǔ)言有著不同、更復(fù)雜的結(jié)構(gòu)(無(wú)論是從語(yǔ)法還是字符數(shù)量上),導(dǎo)致它們需要更高的詞元化率。例如,根據(jù) OpenAI 的 GPT3 分詞器 ,“你的愛意(your affection)”的詞元,在英語(yǔ)中只需要兩個(gè)詞元,但在簡(jiǎn)體中文中需要八個(gè)詞元。盡管簡(jiǎn)體中文文本只有 4 個(gè)字符(你的愛意),而英文有 14 個(gè)字符。

編 輯:章芳
聲明:刊載本文目的在于傳播更多行業(yè)信息,本站只提供參考并不構(gòu)成任何投資及應(yīng)用建議。如網(wǎng)站內(nèi)容涉及作品版權(quán)和其它問(wèn)題,請(qǐng)?jiān)?0日內(nèi)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除內(nèi)容。本站聯(lián)系電話為86-010-87765777,郵件后綴為#cctime.com,冒充本站員工以任何其他聯(lián)系方式,進(jìn)行的“內(nèi)容核實(shí)”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對(duì)此聲明的最終解釋權(quán)。
相關(guān)新聞              
 
人物
工信部張?jiān)泼鳎捍蟛糠謬?guó)家新劃分了中頻段6G頻譜資源
精彩專題
專題丨“汛”速出動(dòng) 共筑信息保障堤壩
2023MWC上海世界移動(dòng)通信大會(huì)
中國(guó)5G商用四周年
2023年中國(guó)國(guó)際信息通信展覽會(huì)
CCTIME推薦
關(guān)于我們 | 廣告報(bào)價(jià) | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號(hào)-1  電信與信息服務(wù)業(yè)務(wù)經(jīng)營(yíng)許可證080234號(hào) 京公網(wǎng)安備110105000771號(hào)
公司名稱: 北京飛象互動(dòng)文化傳媒有限公司
未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像