国内AI大模型高考数学成绩超GPT-4o，你如何看待这一结果？

据复旦大学自然语言处理实验室微信公众号“FudanNLP”消息，近日，复旦NLP实验室的LLMEVAL团队推出对2024高考数学真题的评测。测评选取了网络上流出的2024高考新I卷和新II卷数学试卷客观题。大模型“考生”有13个。该团队认为，全新出炉的高考试题具备高度的独创性和保密性，是用来评测大模型的绝好评测集合。

根据两次评测的结果，大部分测试模型在简单题（如选择题前三道）上有比较好的准确率，而在中档题中表现一般。

GPT-4o与阿里云开源模型Qwen2-72b在两次测试中排名都比较靠前，相对比较稳定，而且两次排名Qwen2-72b均超过GPT-4o。

500