大模型对比

五道高考数学题,第五道图片未给全,正确应该是拒绝作答:

GPT4o----全对,第五道题正确显示题目不完整

阿里通义----全对,第五道题正确给出答案,但实际截图未给全,原因估计是阿里把这个高考卷放到数据库中,自己补充完题目,并给出答案。(不一定是自己算的,只是数据库中有)

抖音豆包----2题正确,2题算不出(说答案未有正确答案等),第五题正确显示题目不完整。

腾讯混元----全对,第五道题正确给出答案,但实际截图未给全,原因估计是腾讯把这个高考卷放到数据库中,自己补充完题目,并给出答案。(不一定是自己算的,只是数据库中有)

百度3.5文心一言----无法读图,失败。

讯飞星火---五题对了三题,步骤很详细,但不妨碍部分答案错误。

Kimi----四题正确,第五题因题目不全,不做计算。

微软Copilat---感觉不行,都在瞎整。有点失望,要么是读图,要么是中文识别,要么是数学能力不行。

最好的是GPT(贵有贵的道理)和Kimi(国产的),国产阿里,腾讯也很好(怀疑有“作弊”题目被收纳进题库,非自己独立计算)其他各分秋色,微软copilat,百度太失望了。

仅为个人看法,相应公司法务部别找我,找我就删帖,谢谢!谁想问相关大模型的,都可以问我,自由交流讨论哈。

全部专栏