首頁|必讀|視頻|專訪|運營|制造|監(jiān)管|芯片|物聯(lián)網(wǎng)|量子|低空經(jīng)濟|智能汽車|特約記者
手機|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計算|大數(shù)據(jù)|報告|智慧城市|移動互聯(lián)網(wǎng)|會展
首頁 >> 人工智能 >> 正文

“有提升”,高考閱卷名師再評AI高考作文:九大模型座次劇烈變動

2025年6月9日 07:14  第一財經(jīng)  

一年一度高考來臨,考生之后,按慣例是各家AI的答題時間。這一年AI模型圈加速迭代進化,讓AI寫作文,水平會有提高嗎?讓名師來打分,各大模型的成績排名有多大變化?

“相較去年,AI進步很快,不再機械單一,變得有思想了。”在看完幾家模型的作文后,四川南充市嘉陵一中語文教師李東林對第一財經(jīng)表示。

2024年,第一財經(jīng)寫了一期九大模型“決戰(zhàn)”高考,當時李東林老師在看完AI作文后,認為它們“缺一點情感和靈氣”,到今年,他覺得AI已經(jīng)補上了這方面,但仍達不到細膩。

“人寫作,可以刻意抒情和感性,即使是思辨類題目,也需要去契合某些人的感受!崩顤|林認為,這是AI仍然缺少的部分。

湖南省中學語文特級教師左建國有同樣的看法,他覺得Al作文整體有提升,但提升幅度不大。因為有關時代、社會與生活方面的新素材并不多,明顯儲存不夠,尤其是在抒發(fā)個人情感方面,仍然是短板,缺少生命的溫度。

左建國老師曾擔任高考作文閱卷組的副組長,在高考閱卷方面有十幾年的經(jīng)驗!癆l作文已經(jīng)把考場作文變成一種可計算的拼圖,形式上固然能逼近完美,但個性化的思考,以及撥動人心的語言,幾乎沒有看到,這是AI與真人思維的真正差別,也就難有高分與滿分!彼J為。

具體到各家模型表現(xiàn),去年是通義千問、元寶和豆包這三家大廠的AI排在前三,但今年,兩個新入局的“選手”——谷歌的Gemini和DeepSeek空降榜單并列第一,元寶和通義千問排在第三和第四位,豆包降至第六位。

與去年同樣,今年第一財經(jīng)選取了國內(nèi)外的九家模型,但廠商有所變化,新增了谷歌的Gemini和DeepSeek。這兩個模型都在這一年里聲量逐漸擴大,成為頭部模型,在此次評分中,也是這兩大模型作文成績突出。

除了上述模型,第一財經(jīng)也選取了海外的AI獨角獸OpenAI,以及國內(nèi)幾個大廠玩家。去年的“AI六小虎”格局不再,從國內(nèi)AI獨角獸里選了月之暗面的Kimi和智譜。以上模型廠商都在業(yè)界有較高的知名度和受眾,是基座廠商里有代表性的頭部。

從此次作文表現(xiàn)看,智譜和ChatGPT表現(xiàn)較差排在末尾。幾位老師在點評時多數(shù)提到了這兩個模型的作文“論文味較重”,語言文字生硬,分析并不透徹,泛泛而談。

不過,需要注意的是,各位老師對作文的喜好各有不同,分差部分也較大,以上打分僅供參考。李東林老師就對記者表示,評分不一定準確,他只是粗略打分,按照平時閱卷評分,誤差在5分之間是正常范圍。以豆包為例,有老師給了最高分,認為其內(nèi)容不錯,論述邏輯嚴密,但也有老師認為,豆包的結(jié)構(gòu)不適合考場。

此外,第一財經(jīng)此次測評用的是上海卷高考作文,這是一個較為思辨性的題目,論點論題較為明確,AI普遍答得都算不錯。但今年高考全國一卷的作文,論題并不明顯,考題用了詩歌引出,對AI就較有難度。

第一財經(jīng)將AI寫的全國一卷作文拿給老師看,他們反饋,這一題目AI寫得有點亂,審題并不清楚。從表現(xiàn)上來看,AI適合寫思辨類、邏輯分明的作文,任務越明確,表現(xiàn)越好。

9家大模型答高考作文

2025年上海高考作文題目是談“專、轉(zhuǎn)、傳”,來源于華東師范大學終身教授、上海寫作學會會長胡曉明,他在一篇發(fā)于“文匯筆會”的文章中,將文章歸為三個字:專、轉(zhuǎn)、傳。他在接受采訪時認為,這個題目引導考生參與當代文化生活與思想反思。

題目原文是:有學者用“!薄稗D(zhuǎn)”“傳”概括當下三類文章:“!敝笇I(yè)文章;“轉(zhuǎn)”指被轉(zhuǎn)發(fā)的通俗文;“傳”指獲得廣泛傳播的佳作,甚至是傳世文章。他提出,專業(yè)文章可以變成被轉(zhuǎn)發(fā)的通俗文章,而面對大量“轉(zhuǎn)”文,讀者又不免期待可傳世的文章。由“專”到“傳”,必定要經(jīng)過“轉(zhuǎn)”嗎?請聯(lián)系社會生活,寫一篇文章,談談你的認識與思考。要求自擬題目,不少于800字。

第一財經(jīng)記者將以上問題拋給了各家大模型,提示詞一致,均為一次性生成,它們的答案以及各位教師的打分、點評如下:

一、谷歌Gemini

谷歌Gemini的作文題目是《跳出流量的漩渦:從“!钡健皞鳌钡亩嘣窂健罚@篇作文的平均分達到61.5分,有3名老師打出60分以上的分數(shù),打出最高分的是李東林,他給的分數(shù)是65分。

李東林評價稱,這篇作文在第一段直接點題,在第二段交代清楚了專、轉(zhuǎn)、傳三者的關系,在第三和第四段進行了正反論證,邏輯力強、論證有力,結(jié)尾還扣了題,指明了方向。

左建國則認為,谷歌Gemini的題目有深度且獨特,文章論據(jù)較充實,引用了愛因斯坦相對論、馬爾克斯的《百年孤獨》等,缺點在于文采略顯不足。

廣東省某高中高三備課組組長文旭沒有給出60分以上分數(shù),但他也認為,這篇作文有一些優(yōu)點,主要是分析有層次,有思路,但缺點在于觀點不夠鮮明、集中。

二、DeepSeek-R1

DeepSeek-R1的作文題目是《墨香深處有驚雷》,這篇文章的平均分也達到61.5,有3名老師打出60分以上的分數(shù)。

文旭給了60分,他認為這篇作文主題鮮明,語言優(yōu)美,材料豐富。左建國評分59分,他認為,這篇文章題目不凡,文章語言流暢有文采,內(nèi)容較充實,缺點則在于作文對題目“驚雷”的闡釋不夠,令人印象不深,有雷聲大雨點小的嫌疑。

三、騰訊元寶

騰訊元寶的作文題目是《云巔自有通天路 何須曲徑渡星河》,這篇文章的平均分達到61分。

在9篇作文中,左建國將最高分給了元寶,他的評分是63。左建國認為,這篇作文能準確把握題意,觀點鮮明,語言有文采,論據(jù)涉及古今中外,異彩紛呈,結(jié)構(gòu)完整,文末點題。他建議,若能增加些個人親歷感受的篇幅,文章將更精彩。

文旭只打了52分,他的理由是,這篇文章的優(yōu)點是開門見山,缺點則在于材料與觀點不夠統(tǒng)一。

四、阿里通義千問

通義千問的作文題目是《從“!钡健皞鳌,是否必須經(jīng)過“轉(zhuǎn)”?》,這篇作文的平均分59.75分。

在9篇作文中,文旭、有高考閱卷經(jīng)驗的廣東潮州高中資深語文教師許珊都將最高分給了這篇作文,文旭打分64分,許珊打分68。文旭評價稱,這篇作文本文觀點集中,分析有深度,結(jié)構(gòu)也清晰。許珊認為,這篇作文回應了問題,思路清晰,邏輯嚴密,具有思辨性。

左建國和李東林則指出這篇文章的一些缺點。左建國打了51分,他認為這篇作文符合題意,論據(jù)較充實,個別地方能分析到位,但題目、結(jié)構(gòu)、語言都比較一般。李東林老師打了56分,他認為這篇作文思路清晰,但重點不突出。

此外,第一財經(jīng)記者對文章中引用的內(nèi)容進行了核查,發(fā)現(xiàn)文章引用了“最忌隨人后,道德無多只本心”這一句,稱作者是蘇軾,但實際上源自黃庭堅的詩。AI幻覺仍然存在。

五、字節(jié)豆包

豆包的作文題目是《破繭成蝶:在轉(zhuǎn)譯中抵達永恒》,這篇作文的平均分是59分。

文珊給這篇作文打出了69分的高分,她的評價是這篇作文認識深刻,論述邏輯嚴密,思辨性強。李東林認為,這篇作文在首段就解讀了題干并提出自己的新角度,論證過程也頗具條理。左建國認為,這篇作文議題觀點較鮮明,論據(jù)較多,且內(nèi)容較充實。

但一些老師點出了這篇作文結(jié)構(gòu)、題目上的問題。文旭打分56分,他表示,這篇文章雖然結(jié)構(gòu)清晰,但考場不太喜歡這樣的結(jié)構(gòu),文章也沒有明顯的結(jié)尾。左建國也認為,這篇作文結(jié)構(gòu)一般,一些論據(jù)與論點欠吻合。李東林認為,題目中的“破繭成蝶”有使用不當?shù)南右伞?/P>

六、百度文心一言

文心一言的作文題目是《破繭與羽化:論學術經(jīng)典的誕生之路》,這篇作文的平均分為58.5分。

這篇文章的最高分來自文旭的63分,他的理由是這篇作文能辯證看待問題,過渡自然,材料也豐富。

李東林和左建國分別打分56分、53分,他們認為題目或文內(nèi)對題目的論證存在問題。李東林認為,文內(nèi)對題目中的“誕生之路”似乎并沒有說清楚。左建國認為,這篇作文結(jié)構(gòu)起承轉(zhuǎn)合,文意連貫題目有文采,但題目略嫌過大,文章對于如何破繭、如何羽化缺少深入表達。

七、月之暗面Kimi

月之暗面Kimi的作文題目是《化繭成蝶:專業(yè)文章的蛻變之路》,這篇作文的平均分59.5分。

這篇文章拿到的最低分是52分,來自左建國的評分。左建國認為,這篇作文觀點很明確,有些句子很有文采,但論據(jù)有限。對朱自清、魯迅的文章如何成為經(jīng)典,文章應舉例詳敘,“化繭成蝶”才能表達到位。

李東林認為,Kimi這篇作文的題目不合適。文旭則認為,這篇作文用材料引出觀點,但第一段的觀點不夠集中,且文內(nèi)用“然而”“但”等銜接語來銜接各段,有的銜接詞欠妥。

八、智譜清言

智譜清言的作文題目是《破繭成蝶:論知識傳播的三重境界》智譜清言的這篇作文拿到了所有打分中的最低分41,且平均分只有50.75分。

左建國認為,智譜的題目有偏離題意之嫌,結(jié)構(gòu)欠佳,語言一般化,甚至有凌亂現(xiàn)象。其他幾位老師也提到,智譜的作文論文味較濃,語言文字生硬。

九、OpenAI ChatGPT

ChatGPT的作文題目是《專、轉(zhuǎn)、傳:從專業(yè)到傳世的橋梁》,這篇文章的平均分是50.5分,是9篇作文中平均分最低的。

ChatGPT得到了兩個較低的49分,幾位老師均沒有給出太高的分,也都提到標題并不合適,內(nèi)容泛談三方面,平均用力較為局限,也沒有扣緊中心。

"論文味也比較濃,重在結(jié)構(gòu),而分析不夠透徹。"文旭認為。

總結(jié)

一些老師肯定了AI作文的優(yōu)點。

“看下來感覺AI寫的作文,語言通常都不錯,文內(nèi)材料也比較豐富。”文旭表示。“從審題看,Al作文一般都能較準確審題,并且求穩(wěn)。從結(jié)構(gòu)上看,AI作文常常程式化,論說文要素完整,一般邏輯性強!弊蠼▏J為。

許珊則指出,上海高考作文屬于問題思辨性作文,重在探究回應專、轉(zhuǎn)、傳的關系,這些AI作文整體來看思路較清晰,邏輯嚴密,內(nèi)容豐富,中心也比較突出。

不過,也有老師也指出AI作文的不足之處。

文旭覺得AI作文讀上去還是感覺有套路。左建國則認為,這些AI作文在思維獨特性方面往往存在限制,文章存在中間大兩頭小的問題, AI作文立意獨特深刻或者偏離題意的都比較少,中間大部分中規(guī)中矩。

此外,左建國發(fā)現(xiàn),AI作文也有案例堆砌,邏輯錯誤的問題,各個AI在語言均有自己的追求,華美富麗者有之,簡潔雋永有之,凌亂胡編者也有之,但由于缺少真情實感實,AI難有個性化表達與思考。

編 輯:高靖宇
飛象網(wǎng)版權(quán)及免責聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對于經(jīng)過授權(quán)可以轉(zhuǎn)載,請必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標注作者信息和飛象網(wǎng)來源。
2.凡注明“來源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點和對其真實性負責。
3.如因作品內(nèi)容、版權(quán)和其它問題,請在相關作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進行的“內(nèi)容核實”、“商務聯(lián)系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權(quán)。
推薦新聞              
 
人物
韋樂平:大模型時代將開啟新一波“光進銅退”
精彩視頻
英雄灣的“智”變,探訪AI應用標桿示范村
卡奧斯馮興智:AI賦能工業(yè)互聯(lián)網(wǎng),重塑全球智造新生態(tài)
藍卓數(shù)字科技陳玉龍:以“1+2+N”架構(gòu)引領工業(yè)智能新未來
飛象趣談第二十七期!中國3G的艱難第一步,自主標準TD-SCDMA的苦與甜
精彩專題
2025工業(yè)互聯(lián)網(wǎng)大會
2025世界電信和信息社會日大會
第八屆數(shù)字中國建設峰會
通信產(chǎn)業(yè)2024年業(yè)績盤點
關于我們 | 廣告報價 | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號-1  電信與信息服務業(yè)務經(jīng)營許可證080234號 京公網(wǎng)安備110105000771號
公司名稱: 北京飛象互動文化傳媒有限公司
未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復制、鏡像