大模型的bug检验了国内大模型厂家的技术实力，个人怀疑有人抄袭

大蹦蹦

07-21 11:45

迄今为止，人类发现大模型胡说八道不是一次两次了，人们可以断言大模型没有真正理解这个世界，而是在生搬硬套。最近的一个可笑但是也许很高级的bug——数字比大小，又暴露了大模型的问题——根本没理解这个世界！

500

这个bug首先由艾伦研究机构(Allen Institute)成员林禹臣发现，他在X平台上发布的截图显示，ChatGPT-4o在回答中认为13.11比13.8更大。他评论，“一方面AI越来越擅长做数学奥赛题，但另一方面常识依旧很难”。

随后Scale AI的提示工程师莱利·古德赛德（Riley Goodside）基于此灵感变换了问法，拷问了目前热度最高的几家大模型ChatGPT-4o、谷歌Gemini Advanced和Claude 3.5 Sonnet——9.11和9.9哪个更大？这几家主流大模型通通答错，他也成功将此话题传播开来。某些自媒体不了解科技界动态，把此问题的发现归功于莱利·古德赛，却忘记了真正的研究者林禹臣。问题很简单，但由于人类并不知道大模型的运作机理，修起来并不好修。可以人工干预解决这2个数字，但不清楚运作原理换2个数字没准又出错。

500

回到标题，为啥说检验了国内大模型厂家的技术实力呢？从2024.7.16大规模传播这件事以来，这件事就被各个网站的科技编辑关注到了。第一财经的记者发测试了国内12家大模型，结果8家翻车。回答正确的4家是阿里的通义千问、百度的文心一言、腾讯的元宝和Minimax。这么看起来，国内的大模型水平还不错，至少有4家在这个问题上比chatgpt4好。我常用的有月之暗面的kimi，抖音的豆包，讯飞星火（当天没测到）。

到了今天（2024年7月21日），再次测试这些大模型，豆包已经改正过来了，但是改正方式嘛，大家看图吧：

500