設為首頁 收藏本站 切换风格
立即註冊
 找回密码
 立即註冊

泰国世界日报

搜索
热搜: 泰国 政治 攻略
泰国世界日报 首頁 國際 大陆新闻 查看内容

AI當高考生 通義千問勝GPT-4o 語文、英文能力強 但數學皆不及格 ...

2024-6-21 12:40| 发布者: wiego220| 查看: 591| 评论: 0

【記者陳宥菘/綜合報導】中國高考6月初已結束,各地近日將陸續公布考試成績。搶在這之前,上海人工智慧實驗室旗下機構近日公布首個由人工智慧(AI)大模型答卷的評測結果。在7個來自中國海內外大模型進行語文、數學、英語三科全卷能力測試下,阿里巴巴的通義千問2-72B總得分排名第一,略高於第二名OpenAI的GPT-4o。此外,閱卷老師也剖析了AI與人類考生答題上的差異。
上海第一財經報導,在前不久高考結束後,上海人工智慧實驗室旗下司南評測體系OpenCompass選取了7個大模型進行高考語文、數學、英語全卷能力測試,這項首個大模型高考全卷評測結果於19日公布。
在三科加起來滿分為420分(語文、數學滿分150分;英文滿分120分)的前提下,此次高考測試結果顯示,大模型的語文、英文考試程度普遍不錯,但數學都不及格,最高分也只有75分。
從排名看,阿里通義千問2-72B排名第一,為303分,OpenAI的GPT-4o排名第二,得分296分,上海人工智慧實驗室的書生·浦語2.0排名第三,三個大模型的得分率都超過70%。
第四至六名則為阿里通義千問2-57B、零一萬物Yi-1.5-34B、智譜GLM4-9B。來自法國大模型新創公司的Mistral Mixtral 8x22B排名第七墊底。
針對各科的表現,語文方面,評卷老師認為,模型的現代文閱讀理解能力普遍較強,但是不同模型的文言文閱讀理解能力差距較大。大模型作文則更像問答題,對於「比喻」等語文概念,多數模型無法理解。
在數學考卷上,大模型的主觀題回答「相對凌亂」,且過程具有迷惑性,甚至出現過程錯誤但得到正確答案的情況。英語則整體表現良好,但部分模型因不適應題型,在七選五、克漏字填空等題型得分率較低。
©版权免责声明
1、本新闻所有言论和图片纯属本文作者个人意见,与世界日报立场无关;
2、世界日报所有新闻由责任编辑编译后发表;
3、其他单位或个人使用、转载或引用本文时必须同时征得责任编辑和世界日报编辑部的同意;
4、责任编辑须承担一切因本文发表而直接或间接导致的法律责任;
5、本站部分内容翻译自泰国媒体,但并不代表世界日报赞同其观点并为其观点负责;
6、如本帖侵犯到任何版权问题,请立即告知本站,本站将及时予与删除并致以最深的歉意;
7、管理员和版主有权不事先通知发贴者而删除本文;
热点图文
推荐阅读
重慶暴雨6死 三峽大壩急洩洪   15條河超警戒 山體滑坡 埋了祖孫3人 水漫河堤 30輛 ...
【記者陳政錄/綜合報導】洞庭湖潰堤雖已成功封堵,中國的水患危機卻...查看全文
鄭州金水河25億整治 半年就坍塌
【中國新聞組/北京12日電】中國多地近期遭遇暴雨襲擊,鄭州曾斥資25...查看全文
又有大事? 馬雲低調現身杭州阿里總部   分析:可能應李強之邀 傳達三中全會支持民營 ...
【中國新聞組/北京12日電】網傳阿里巴巴創辦人馬雲6日悄然回到浙江杭...查看全文
雙曲線飛行異常 民營火箭又失敗
【記者廖士鋒/綜合報導】中國再傳出火箭發射任務失敗的消息,民營的...查看全文
手机版

轻松读报,链接世界

官方微信

扫描二维码,即刻与世界君亲密互动,还有劲爆奖品等你来拿!

官方微博

最快最准泰国即时新闻,尽在掌握!

返回顶部