設為首頁 收藏本站 切换风格
立即註冊
 找回密码
 立即註冊

泰国世界日报

搜索
热搜: 泰国 政治 攻略
泰国世界日报 首頁 國際 大陆新闻 查看内容

AI當高考生 通義千問勝GPT-4o 語文、英文能力強 但數學皆不及格 ...

2024-6-21 12:40| 发布者: wiego220| 查看: 621| 评论: 0

读新闻
【記者陳宥菘/綜合報導】中國高考6月初已結束,各地近日將陸續公布考試成績。搶在這之前,上海人工智慧實驗室旗下機構近日公布首個由人工智慧(AI)大模型答卷的評測結果。在7個來自中國海內外大模型進行語文、數學、英語三科全卷能力測試下,阿里巴巴的通義千問2-72B總得分排名第一,略高於第二名OpenAI的GPT-4o。此外,閱卷老師也剖析了AI與人類考生答題上的差異。
上海第一財經報導,在前不久高考結束後,上海人工智慧實驗室旗下司南評測體系OpenCompass選取了7個大模型進行高考語文、數學、英語全卷能力測試,這項首個大模型高考全卷評測結果於19日公布。
在三科加起來滿分為420分(語文、數學滿分150分;英文滿分120分)的前提下,此次高考測試結果顯示,大模型的語文、英文考試程度普遍不錯,但數學都不及格,最高分也只有75分。
從排名看,阿里通義千問2-72B排名第一,為303分,OpenAI的GPT-4o排名第二,得分296分,上海人工智慧實驗室的書生·浦語2.0排名第三,三個大模型的得分率都超過70%。
第四至六名則為阿里通義千問2-57B、零一萬物Yi-1.5-34B、智譜GLM4-9B。來自法國大模型新創公司的Mistral Mixtral 8x22B排名第七墊底。
針對各科的表現,語文方面,評卷老師認為,模型的現代文閱讀理解能力普遍較強,但是不同模型的文言文閱讀理解能力差距較大。大模型作文則更像問答題,對於「比喻」等語文概念,多數模型無法理解。
在數學考卷上,大模型的主觀題回答「相對凌亂」,且過程具有迷惑性,甚至出現過程錯誤但得到正確答案的情況。英語則整體表現良好,但部分模型因不適應題型,在七選五、克漏字填空等題型得分率較低。
©版权免责声明
1、本新闻所有言论和图片纯属本文作者个人意见,与世界日报立场无关;
2、世界日报所有新闻由责任编辑编译后发表;
3、其他单位或个人使用、转载或引用本文时必须同时征得责任编辑和世界日报编辑部的同意;
4、责任编辑须承担一切因本文发表而直接或间接导致的法律责任;
5、本站部分内容翻译自泰国媒体,但并不代表世界日报赞同其观点并为其观点负责;
6、如本帖侵犯到任何版权问题,请立即告知本站,本站将及时予与删除并致以最深的歉意;
7、管理员和版主有权不事先通知发贴者而删除本文;
热点图文
推荐阅读
記者揭販嬰 直擊賣男嬰收15萬現金   中介透過小紅書物色客戶 在街頭交易迅速 今年成交 ...
【中國新聞組/北京21日電】儘管警方多次開展打擊拐賣婦嬰犯罪行動,...查看全文
無妄災? 小西天景區保安透露漲薪500被炒   受訪稱「沾遊客光」 卻被通知「別幹了」 全 ...
【中國新聞組/北京21日電】「遊客來了我很感動,若沒有這麽多的遊客...查看全文
挑山工對手來了?機械狗爬泰山 最多可載120公斤
【中國新聞組/北京21日電】近日,多名登山者在山東泰安爬泰山時遇到...查看全文
重慶女機器人街頭發傳單真相是「以真亂假」  被圍觀
【中國新聞組/北京21日電】近日,重慶街頭一台美女機器人在那兒發傳...查看全文
手机版

轻松读报,链接世界

官方微信

扫描二维码,即刻与世界君亲密互动,还有劲爆奖品等你来拿!

官方微博

最快最准泰国即时新闻,尽在掌握!

返回顶部