AI高考数学都能考100多分了?

500大模型又双叒叕进化了。

OpenAI凌晨发布新一代大模型,据说在推理能力上已经可以比肩人类。并且这次没有像Sora一样的画饼,发布即可用。

500

那就让我们看看这个新模型到底是怎么个事500

草莓计划

其实这次OpenAI的发布早有"预谋",在萨姆奥特曼的twitter上,一直都在暗示,即将有一款名为"草莓"的AI项目与大家见面!

500

这草莓是啥呢?就是之前一直传言中可以"媲美"人类,达到AGI(通用人工智能)的大模型。草莓的使命,就是让AI具有推理,规划,甚至是自我学习的能力,从而帮助人类在医疗,科研,教育等有着更快更大的突破。

今天凌晨,我们终于看到了"草莓",只不过它的名字不是GPT5,而是o1

根据官方的介绍,o1在推理相关的问题上,比GPT4o有着大幅度的提升。比如针对美国最聪明高中生的数学测试中,以前GPT4o平均只能在15道题答对1.8道,而o1的正确数量飙升到了12.5,如果微调下,o1可以超过美国高中生数学奥林匹克的分数线。

500

同样地,在编码比赛中,分数也从以前的11分干到了现在的89分,在博士级别的问答中,它也可以超过人类专家

在信息奥林匹克上,经过微调的o1,分数整整提高到了1000分。这是什么概念呢?在人类中,只有7%的参赛者比AI强,剩下的93%都被AI击败了!

500

看完这些,我突然有种第一次见到Sora感觉,这视频真是AI生成的?人类智商最后的防线,就这么被AI攻破了?是不是OpenAI看AI要崩了,又一次画的大饼

500

答案是什么,只有测过,才清楚。这次o1并没有像Sora一般不可"亵玩”,发布后,就全量推送给订阅用户,也就是说,任何人交上20美元,就可以立刻体验到这个划时代的大模型。

测试完,我有点慌了

那就废话少说,直接开测,学渣还是Jumping,我们一测便知!

我们分别用2024年新课标1卷的高考数学题和阿里巴巴全球数学竞赛预选赛的题目来测o1的推理能力。不过要说明的是,目前推送的是o1预览版,它的推理能力和正式版还有些许差距,所以将来看到的o1会比现在更强。

目前的o1还不能看图,所以这次我们把数学公式转换成LaTex格式,交给AI解答,并且今年新课标1卷的试题中,有两道是需要看图的,刨除这两道题的分数,总分在129分。

500

在题目输入对话框后,可以看到o1比普通大模型多了一个思考的过程。比如上图这道高考数学的多选题,它会先分析题目,然后再找需要用到知识。以这道题来讲,需要用的就是正态分布的知识,然后再去计算概率。

500

在这里也简单放下这道题o1的思考过程,大家可以看下,它整体的思路和人类思考确实非常像

500

给AI的卷子判完,我直接慌了!91分!如果转换到150分,那就是105分呀,这已经超过我当年的高考分数了。

阿里巴巴数学竞赛的题比较特殊,其中大部分都是证明题,没有固定答案,所以我们就测试了6道具有准确答案的题,像下面这种:

500

答题的整个过程,和人类非常相似,概率论与数理统计忘光的我,基本上也能看明白个大概。

500

最终6个问题,o1回答对了3个,正确率在50%,虽然没有超过姜萍的93分,但作为AI来讲,也非常不错了,毕竟是国际数学比赛。

500

测完下来,感觉和AI相比,我自己像个弱智!当年我高考数学90多分,结果AI不仅在10分钟内做完题,还考了100多分。我连题目都看不懂的数学竞赛题,它能答对一半,虽然不如姜萍,但也能秒杀大部分人了。

说好的AI推理能力不如5岁小孩呢?OpenAI怎么突然就让AI推理能力,噌噌的,超过我这个360个月的婴儿了呢?500

思维链,下个大模型的突破点

这其中的秘密就在于思维链(Chain of Thought),也就是上面提到过的把一个复杂问题,拆成多个小问题,依次解决的方法。

之前思维链都是作为提示词技巧来使用。想要AI帮你解决复杂问题,就把这个问题拆解成小问题,然后一个一个的输入给AI。

这次,OpenAI直接把拆解的过程交给AI,人类得到了彻底的解放!实测的结果大家也看到了,AI的逻辑推理能力确实得到了大跨步的前进!

那么OpenAI又是如何实现让AI自我完成思维链的呢?很可惜,目前的OpenAI早就Close了,因此这次并没有公布这些技术细节,但从传闻来看,大概是用到了强化学习

也就是给AI设置一个规则,这一步逻辑正确+1分,错误-1分,分数越高越好,最终就有了今天的o1。当然其中有很多工程细节,这些都成为了OpenAI的护城河。

接下来可以肯定的是,思维链将成为其他家大模型的突破方向,到时候谁家模型分解问题分解的好,分解的正确将成为能否领先的关键。

除了数学,有了推理能力的AI在各个地方都有着更好应用。比如OpenAI官方就展示用o1,在不到10分钟内做出一个小游戏,网友在实际测试中,甚至做出了3D的贪吃蛇。

500

更让我意外的是,OpenAI还展示了o1在量子物理,基因学,经济学以及认知学带来的帮助,好家伙,这下AI都可以覆盖到这么前沿的领域了?

500

不过每一次AI突破,都有不小的"副作用",ChatGPT带来论文造假,Midjourney和Sora带来伪造新闻恐慌,这次o1的"副作用"更大。

500

之前GPT4安全测试,生物威胁等级为低,而在o1中,生物威胁不仅升级到了化学,生物,核子,放射威胁,等级也提升到中。

500

500

也就是说,"天网"离我们又进了。AI越强,它造成的破坏也越大,如何控制它,将成为和思维链一样重要的事情,就像我们都希望核子发电,而不希望它爆炸。

从今天开始,各大AI厂商就要考虑这个问题了,不过对于我,我更关心一个问题,就是以后我们还需要考试吗,实在要考的话,能不能让AI替我答一下,毕竟它比我分高

全部专栏