+1

收藏
35

评论
+1

点赞

分享

如何看待AI高考数学全不及格一事？

国服最坑赵信

2024-06-19 17:40

上海人工智能实验室旗下司南评测体系OpenCompass选取了7个大模型进行高考“语数外”全卷能力测试。

OpenCompass发布了首个大模型高考全卷评测结果。语数外三科加起来的满分为420分，此次高考测试结果显示，阿里通义千问2-72B排名第一，为303分，OpenAl的GPT-4o排名第二，得分296分，上海人工智能实验室的书生浦语2.0排名第三，三个大模型的得分率均超过70%。来自法国大模型初创公司的Mistral排名末尾。

从结果来看，大模型的语文、英语考试水平普遍不错，但数学都不及格，最高分也只有75分。

500

风闻好问举报

国服最坑赵信

1206篇文章 | 484人关注

+关注

观察者网用户社区

作者文章查看全部>>

骑手将餐挂门上被顾客投诉像供祭品，平台罚款10元后引发的纠纷，你们怎么看？

最新提问

等19人已参与问答

中学有空调不开，校方称“空调属于第三方公司，收费遭举报所以关闭”，你怎么看？

最新提问

等24人已参与问答

猜猜这是哪位皇帝？

最新提问

等52人已参与问答

热点

站务

观察者网评论

2026年十大预测，这些期待是否会发生？

还记得2025年初的十大预测吗？站在年尾回顾，当初列出的这十大预测，也是十个期待和愿望。这其中，俄乌和平谈判虽然波折不断，但在持续推动中；中东局势在和平协议之下已初现稳定；......
- 评论 36
- 赞 6
风闻社区小助手_小风

全场景数码消费指南：风闻「数码情报局」邀你当消费裁判！

内存涨价席卷全行业，手机、笔记本、平板全线调价……曾经“晚买享折扣”，如今“晚买价更高”，换机周期拉长、配件或成刚需……面对越来越复杂的数码消费市场，你是不是也一头雾水？别......
- 评论 16
- 赞 4

最近更新的专栏

子弹财经

子弹财经（zidancaijing）
- 撕掉“体育”单一标签，咪咕卷入AI短剧巨头之战
视觉志

你陪着我的时候，我没羡慕过任何人
- 豆性恋，渗透婚恋圈
最华人

有华人的地方，就有最华人
- 曾被日本垄断，中国假牙材料，是如何突围的？
雷斯林
- “那个在奶茶店撒泼的人，能保住编制吗”？
金错刀

科技商业观察家，爆品战略理论提出者
- 曾被嘲“丑”的脸基尼，正疯狂硬控中国女人
睿思网

基础设施及不动产领域的洞见者、分享者、连接者
- 奥飞数据的REITs牌桌：一场没有退路的梭哈——南沙3.9万㎡算力园区入池背后
壹娱观察
- 「主角」时刻
阿尔法工场

中国上市公司研究平台
- 人工智能行情从“主题炒作”走向“产业主线”，这只ETF今年更适合做AI配置
文化纵横
- 特朗普归来第一年最刺眼的教训: “我们必须承认, 中国是美国最大的伙伴”
钧正平工作室
- 把官兵家里“难念的经”当成“必解的题”

风闻最热

全部专栏