国内AI大模型高考数学成绩超GPT-4o,你如何看待这一结果?

据复旦大学自然语言处理实验室微信公众号“FudanNLP”消息,近日,复旦NLP实验室的LLMEVAL团队推出对2024高考数学真题的评测。测评选取了网络上流出的2024高考新I卷和新II卷数学试卷客观题。大模型“考生”有13个。该团队认为,全新出炉的高考试题具备高度的独创性和保密性,是用来评测大模型的绝好评测集合。

根据两次评测的结果,大部分测试模型在简单题(如选择题前三道)上有比较好的准确率,而在中档题中表现一般。

GPT-4o与阿里云开源模型Qwen2-72b在两次测试中排名都比较靠前,相对比较稳定,而且两次排名Qwen2-72b均超过GPT-4o。

500

百川智能基座大模型Baichuan 4在新I卷测试中获得第一,字节豆包在新II卷测试中位列第一。

500

观网小伙伴,你如何看待这一结果?

发表于上海市
2024-06-12
风闻好问

观察者APP,更好阅读体验

“《士兵突击》该拍的都拍了,我没糟蹋这部剧”

国产芯片迎来资本“及时雨”

离谱!涉华汇报,欧盟官员竟用这个词…

白玉兰最佳电视剧颁给了它? 靠八集篇幅创造了历史

“中方提速:欧洲稳了,但在美国的还得等等”