七款AI大模型横评:第一名得分93分,但不是DeepSeek

在2022年底ChatGPT问世以来,国内外的AI大模型可谓是层出不穷。各大AI模型作为辅助工具,也一步步渗透进了大家的日常生活中,无论是上班族还是学生党,AI都能在方方面面帮助大家提高效率。于是我们选取了现在网络上热度较高的7款主流AI大模型,选用了目前大家使用最多的版本,并且都是用网页版,从信息检索总结、逻辑理解、时效性、多模态以及专业领域5个方面对它们来了一次大横评。希望能给大家的使用提供一些参考价值。

参加此次AI大横评的分别是:豆包大模型1.6版本、DeepSeek-R1版本、文心一言4.5 Turbo版本、腾讯元宝2.0版本、Kimi K1.5版本、ChatGPT大模型GPT-3.5版本、MiniMax-M1版本。没有选择Kimi的最新K2模型是因为该模型暂时无法开启深度思考,而ChatGPT我们则是选择了目前能免费使用的版本进行测试

此次大横评的题目共分为信息检索总结、逻辑理解、时效性、多模态以及专业领域5大类,除专业领域外,每个类型有4个问题,一个问题满分为5分,专业领域类则是2个问题,每个问题10分,每个类型共计20分,最后累计满分为100分。我们的评分标准是根据AI大模型的回答来给出评分,但如果有无法完成多模态测试或无法搜集实时数据等情况,我们就会直接给出1分。在测试的整个过程中我们将全部开启深度思考模式、关闭联网搜索、关闭接入了DeepSeek的系统,全部使用它们自身的系统来进行测试。接下来让我们一起来看看测试结果吧。

一、信息检索总结类

在这个环节,我们主要测试AI大模型对于信息检索以及检索后总结的能力,包括信息的准确性、完整性;是否有关键信息的补充;是否能根据我们的要求对搜集到的信息进行精炼的总结等。

我们向这7个AI大模型提出了以下4个问题:

1、最近一次亚运会是在哪个城市举办的?

2、2019年温网对阵双方是谁,比分是多少?

3、现在电影史上票房前十是哪些电影?

4、用不超过300字,总结《红楼梦》中“刘姥姥进大观园”的情节,并分析这个情节对体现贾府兴衰的作用?

在关于亚运会的第一个问题的回答中,所有AI均能回答正确,但是得分的差异在于对信息的补充。其中回答最完整的是DeepSeek,紧随其后的是文心一言、ChatGPT以及MiniMax,而豆包、Kimi和腾讯元宝则都是很简单的回答,没有补充因疫情推迟这个关键信息。

500

DeepSeek

500

文心一言

500

豆包

在第二个关于2019年温网的问题中,所有的AI都默认了询问的是决赛。其中DeepSeek再次脱颖而出,不仅回答了男女单决赛,还将其他双打决赛的结果也回答了。只有ChatGPT仅回答了男单决赛。但是Kimi在我们没有询问2023年比赛结果的情况下,回答了2023年的,这也影响了它的得分。

500

DeepSeek

500

豆包

500

ChatGPT

500

Kimi

第三题关于现在电影史上票房前十的问题,则是成为了重灾区,除了DeepSeek和豆包几乎全军覆没,都没有将新入榜的《哪吒2》纳入排名。而文心一言统计的信息竟然是截止2023年10月的信息,但最让人意外的是MiniMax统计的截止时间虽然是2025年7月,但是在它的榜单中竟然还出现了没有上映的《阿凡达3》,并且它和Kimi都将《阿凡达2:水之道》排在了第一名。

500

DeepSeek

500

文心一言

500

MiniMax

这一部分的最后一个问题,关于使用不超过300字总结并分析“刘姥姥进大观园”这一情节,各大AI模型做得都不错,突出的是DeepSeek、文心一言以及MiniMax它们在思考过程中都思考了刘姥姥三次进入大观园,并且回答也满足字数要求。豆包则是只思考了刘姥姥前两次进入大观园,腾讯元宝只思考并回答了最重要的第二次,ChatGPT则没有抓住重点,只回答了刘姥姥第一次进大观园。而在所有模型中只有Kimi没有满足字数要求,虽然它也思考了刘姥姥三次进入大观园。

500

DeepSeek

500

豆包

500

ChatGPT

这是7个AI大模型在该类型的测试结果,我们可以看出DeepSeek在信息检索及总结方面拥有明显的优势,每一个问题的回答都非常的完整,并且会补充很多额外的相关信息,因此在这一类型的测试中获得了唯一的满分20分,Kimi和ChatGPT在这一环节则是7款大模型中得分最低的,主要问题在于回答过于简单,并且也无法很好的从问题中抓住重点。

最终在这阶段DeepSeek 20分、豆包15分、文心一言14分、腾讯元宝13分、Kimi 11分、ChatGPT 10分、MiniMax 14分。

500

二、逻辑理解类

在这个部分,我们主要测试AI大模型在逻辑推理能力以及理解长难句或是有歧义的句子时能不能很好的进行处理,并且理解正确其中的意思。

该部分的4个问题分别是:

1、包装上写着开封即食,那我在河南洛阳怎么办?

2、今有雉兔同笼,上有35头,下有94足,问雉兔各有几何?

3、校长说衣服上除了校徽别别别的。这句话是什么意思?

4、当你将死亡时,延长你的生命0.5秒,且此技能每发动一次,效果减半。请问你可以存活几秒?

在第一个问题中,DeepSeek与Kimi不仅理解了这个文字游戏,回答也最完整,还给我们推荐了开封的美食,豆包和MiniMax也同样理解了题目,但回答相对没有那么的完整。文心一言、腾讯元宝以及ChatGPT则完全没有理解题目中的文字游戏。

500

DeepSeek

500

ChatGPT

第二个问题中,所有大模型均能回答正确,但是文心一言、腾讯元宝、MiniMax在最后的作答上没有那么严谨,回答的是“鸡”而不是题目最后的“雉”,因此被扣了分。

500

豆包

500

MiniMax

第三个问题,同样所有AI都回答正确了意思,但是DeepSeek与Kimi的思考时间明显比其他的要长很多。豆包和文心一言回答最为完整,还补充了语法的分析,相比之下其他的AI的回答就没有这么完整。但是ChatGPT还是没有抓住重点,给我们补充介绍了与之无关的学校的规章制度。MiniMax则是有谐音梗的分析,但是让人很难以理解,将简单问题复杂化了。

500

文心一言

500

MiniMax

最后一个问题,除了Kimi的最后的回答不太严谨外,其他所有的AI都完成的很好。

500

腾讯元宝

500

Kimi

在第二种类型——逻辑理解的测试中,每个AI大模型的表现都不错,所有的问题都能够回答正确,但是在回答的完整性以及能不能抓住题目中的重点还是存在不小的差异,在这个环节中并没有大模型获得满分,DeepSeek以及豆包获得19分,文心一言、Kimi、ChatGPT、MiniMax分别获得16分、18分、16分、17分,最低分则是腾讯元宝的15分。

500

三、时效性

在这一环节中,AI大模型能否成功的搜集到最近发生的热点事件成为了我们测试的重点,因为时效性对于用户的体验来说也是非常重要的,世界每一天都在发生变化,那么现在的AI大模型能否及时的跟上实时的变化呢。于是我们向7个AI大模型提出了4个问题来测试它们的时效性。

1、切尔西最近一次的足球比赛是什么时候,对手是谁,比分是多少?

2、请告诉我北京的实时天气状况包括温度、风力和降水概率。

3、“如何呢,又能怎”是什么意思?

4、周杰伦在抖音现在有多少粉丝?

经过我们的测试与询问,我们发现文心一言的数据都是在2023年12月之前的数据,所以在这一环节,文心一言获得最低分4分。

第一题中,豆包、DeepSeek以及ChatGPT回答正确,但是豆包的答案更完整。其他的大模型回答都是错误的,甚至连最后给出来的答案的信息都有误。其中Kimi给出的答案竟然是切尔西在2026年的比赛结果,AI难道能预知未来?

500

豆包

500

Kimi

第二题中测试的时间是2025年7月16日15:17,但Kimi与MiniMax无法提供实时的天气;DeepSeek和豆包的数据截止时间是15:00,其中豆包的信息更为准确;腾讯元宝和ChatGPT数据截止时间为12:00,但数据的偏差都比较大。

500

实时数据

500

豆包

500

ChatGPT

第三题则只有豆包理解了这个网络热梗的意思,其余6个AI均不知道这个热梗的来源。

500

豆包

500

DeepSeek

在时效性测试的最后一个问题中,同样Kimi和MiniMax无法提供实时数据,测试的时间为7月16日15:30,其中豆包的数据差距最小,而DeepSeek与ChatGPT数据差距略大,但腾讯元宝的数据属于是在胡编乱造,称周杰伦在2020年就入驻抖音。

500

实时数据

500

豆包

500

腾讯元宝

在时效性的测试中,表现最差的无疑是文心一言,数据太滞后了,仍旧停留在2023年。Kimi、MiniMax以及腾讯元宝的表现同样糟糕,很多时候甚至不能保证信息的准确性。豆包在这一环节的测试中展现出了它的优势,获得了19分。最终,DeepSeek 12分、ChatGPT 11分、腾讯元宝6分;文心一言、Kimi、MiniMax都只获得4分。

500

四、多模态测试

在这一环节,我们主要测试AI能否理解多种数据并生成信息的能力。首先DeepSeek因无法上传没有文字的照片,获得了最低的4分。文心一言在上传图片时只能关闭深度思考,所以这一环节我们关闭了文心一言的深度思考功能。除此之外,MiniMax与Kimi可以上传图片但无法生成照片,所以在前三个问题中每个问题也分别只得到1分,但其在每个问题都会给出详细的步骤。

四个问题分别是:

1、画一张“落霞与孤鹜齐飞,秋水共长天一色”。

2、上传同一张图片,根据图片的内容,将原图扩张补充,画出一张新图片。

3、上传同一张图片,让图片中的事物动起来。

4、上传同一张图片,来描述图片中的内容并分析。

在测试的过程中,我们发现第三个问题,只有豆包能够让图片动起来,其他的AI都还无法实现。第四个问题除了ChatGPT回答的过于简单,其他的大模型都能很好的进行识别并分析。

上传的图片我们统一选择了以下这张:

500

选取的图片

在这一环节豆包表现的尤为出色,在每一个问题中都表现的很好,生成的视频也挺好,获得了20分的满分。

500

豆包

500

豆包

500

豆包

文心一言的表现也很不错,但是还是在扩写这个问题中没有完全抓住重点,几乎是重新画了一张图片。腾讯元宝的图片生成跟豆包与文心一言还是有不小的差距,甚至有出现两个马头,完全不符合常理的图片。而ChatGPT的图片生成则显得更为粗糙,生成的速度非常慢。

500

文心一言

500

腾讯元宝

500

ChatGPT

在这一环节的测试中,豆包是最大赢家,它在多模态的测试中击垮了其他所有的对手,在这一环节完成了称霸。在可以生成图片的AI中,ChatGPT与腾讯元宝的表现中规中矩,生成的图片要不很粗糙,要不不符合常理。相比之下文心一言除了无法让图片动起来外,其他的表现比较出色。而DeepSeek仅能识别含有文字的图片,这无疑是他的最大短板,同样,MiniMax与Kimi也无法生成图片,但也会给出很详细的方法以及介绍。最终多模态测试DeepSeek 4分、豆包20分、文心一言17分、腾讯元宝16分、Kimi和MiniMax得8分、ChatGPT 11分。

500

五、专业领域类

最后我们也在专业领域选取了两道压轴大题,来考验我们的AI大模型在专业领域对待一些专业问题时能否有好的表现。

第一题是今年高考数学全国一卷的最后一道大题:

500

第二题则是一道编程题:

500

在这道数学压轴大题中,豆包、腾讯元宝、ChatGPT都能准确迅速的完成计算;DeepSeek和MiniMax的思考时间则是有点太长了,但也能做对题目;而文心一言和Kimi则是出现了计算错误的情况,文心一言只做对了第二小问的证明题,Kimi则是在最后一个小问上出了错。

500

豆包

500

文心一言

500

Kimi

第二个编程题则是所有AI大模型都很好的完成了作答,但是豆包的回答让我们眼前一亮,不仅纠正了Bug,还给出了怎么去改进这个程序的建议。值得一提的是,DeepSeek在做完上一道数学题后,出现了服务器繁忙的情况。

500

豆包

在最后这一环节,除了Kimi和文心一言有出错外,其他的AI大模型都很好的完成了测试,在最后的测试中难分高下。豆包获得20分,腾讯元宝和ChatGPT获得18分,DeepSeek和MiniMax获得16分,而文心一言和Kimi分获11分、14分

500

本次AI大模型的横评测试已全部结束,最终我们的豆包成为了得分最高的AI大模型,获得了93分的高分,在每一个环节都发挥稳定;DeepSeek则在多模态测试中拉低了自己的分数,在其余4个环节的测试中表现都很不错,获得71分;文心一言在时效性这一块是大大落后,数据目前还停留在2023年,最后的数学题也出现了明显的错误,最后获得了62分;腾讯元宝、ChatGPT和MiniMax感觉则是“样样通,样样松”的感觉,每一个环节都有或多或少的问题,分别获得68分、66分、59分;而Kimi则成为了7个AI大模型中的最低分55分,我们在测试过程中也能感受到Kimi似乎跟其他的大模型相比,差距还是挺明显的,无论是在信息的准确性,信息的补充还是时效性等方面,并没有突出的长处,反而还暴露出无法生成图片和获取实时数据等问题。

500

目前各大AI模型也都在积极的更新版本,力争在这个已经与AI息息相关的社会上给大家更好的体验。但我们也能从测试中发现,目前的AI大模型都是存在或多或少的问题。在我看来,无论技术如何迭代,用户始终需要清醒认知:AI的价值不在于替代人的思考,而在于让人从机械性工作中解放出来,专注于更具创造性的核心事务——这或许才是这场横评最终指向的答案:找到与AI共处的最优解,让智能真正服务于人的成长与发展。

站务

全部专栏