11月8日,中文大模型測評基準(zhǔn)SuperCLUE發(fā)布《中文大模型基準(zhǔn)測評2024年10月報告》,智譜GLM-4-Plus憑借出色的能力表現(xiàn),在43個國內(nèi)外大模型中位居第一梯隊,總得分位列國內(nèi)大模型首位。
SuperCLUE中文大模型基準(zhǔn)測評旨在通過多維度綜合性測評,對國內(nèi)外大模型的發(fā)展趨勢和綜合效果進(jìn)行實(shí)時跟蹤。本次10月報告聚焦通用能力測評,選取了國內(nèi)外有代表性的43個大模型,采用多維度、多層次的綜合性測評方案進(jìn)行測評。測評結(jié)果顯示,o1-preview的推出進(jìn)一步拉大了與其他模型的差距,國內(nèi)大模型第一梯隊競爭激烈,持續(xù)迭代表現(xiàn)不俗。其中國內(nèi)閉源模型GLM-4-Plus、SenseChat 5.5、AndesGPT-2.0表現(xiàn)優(yōu)異,與ChatGPT-4o-latest相距2分以內(nèi)。基于大模型在基礎(chǔ)能力和應(yīng)用能力的表現(xiàn),共有23個國內(nèi)大模型入選SuperCLUE模型象限。智譜GLM-4-Plus位居【卓越領(lǐng)導(dǎo)者】,代表模型在基礎(chǔ)和場景應(yīng)用上處于領(lǐng)先位置,引領(lǐng)國內(nèi)大模型發(fā)展。
11月14日,在司南OpenCompass公布的大語言模型對戰(zhàn)榜單Compass Arena中,智譜GLM-4-Plus的競技場評級分?jǐn)?shù)位列榜首,領(lǐng)先GPT-4o-20240513。
Compass Arena 大語言模型對戰(zhàn)榜單致力于構(gòu)建一個完全基于用戶真實(shí)反饋的公正、開放、透明的榜單。用戶根據(jù)與大模型的真實(shí)對話體驗進(jìn)行投票,依據(jù)投票結(jié)果,使用 Elo 評分系統(tǒng)對大模型進(jìn)行排名。
據(jù)悉,GLM-4-Plus 是智譜全自研 GLM 大模型的最新版本,它標(biāo)志著智譜繼續(xù)瞄準(zhǔn)通用人工智能,持續(xù)推進(jìn)大模型技術(shù)的獨(dú)立自主創(chuàng)新。作為智譜最新旗艦?zāi)P?在語言理解、邏輯推理、指令遵循、長文本輸出方面都有較大突破。GLM-4-Plus 成為智譜全模型家族堅實(shí)的能力底座,在代碼計算、數(shù)據(jù)分析、圖像/視頻特征識別等領(lǐng)域均實(shí)現(xiàn)性能的大幅提升,及成本的大幅下降,目前已上線智譜開放平臺bigmodel.cn。