大模型的bug检验了国内大模型厂家的技术实力,个人怀疑有人抄袭

迄今为止,人类发现大模型胡说八道不是一次两次了,人们可以断言大模型没有真正理解这个世界,而是在生搬硬套。最近的一个可笑但是也许很高级的bug——数字比大小,又暴露了大模型的问题——根本没理解这个世界!

500

这个bug首先由艾伦研究机构(Allen Institute)成员林禹臣发现,他在X平台上发布的截图显示,ChatGPT-4o在回答中认为13.11比13.8更大。他评论,“一方面AI越来越擅长做数学奥赛题,但另一方面常识依旧很难”。

随后Scale AI的提示工程师莱利·古德赛德(Riley Goodside)基于此灵感变换了问法,拷问了目前热度最高的几家大模型ChatGPT-4o、谷歌Gemini Advanced和Claude 3.5 Sonnet——9.11和9.9哪个更大?这几家主流大模型通通答错,他也成功将此话题传播开来。某些自媒体不了解科技界动态,把此问题的发现归功于莱利·古德赛,却忘记了真正的研究者林禹臣。问题很简单,但由于人类并不知道大模型的运作机理,修起来并不好修。可以人工干预解决这2个数字,但不清楚运作原理换2个数字没准又出错。

500

回到标题,为啥说检验了国内大模型厂家的技术实力呢?从2024.7.16大规模传播这件事以来,这件事就被各个网站的科技编辑关注到了。第一财经的记者发测试了国内12家大模型,结果8家翻车。回答正确的4家是阿里的通义千问、百度的文心一言、腾讯的元宝和Minimax。这么看起来,国内的大模型水平还不错,至少有4家在这个问题上比chatgpt4好。我常用的有月之暗面的kimi,抖音的豆包,讯飞星火(当天没测到)。

到了今天(2024年7月21日),再次测试这些大模型,豆包已经改正过来了,但是改正方式嘛,大家看图吧:

500

看了吧,豆包的开发者注意到了这个bug,但是解决不了,强行了加了规则让大模型的输出结论正确,但是似乎不会改大模型本身,所以第一句还是错的。

最可笑的是月之暗面的kimi,发了声明,阐述了下人类目前对大模型的机理还不明确,说了下问题的复杂性,结果就是没改问题!!!!!!7.17那天啥样,现在还是啥样。亏我用的最多的是kimi。

500

从这小事侧面反应了国内大模型各家的技术水平,有些是真自研,有些存在国外开源换皮的嫌疑。

全部专栏