+1

收藏
16

评论
+1

点赞

分享

AI高考数学都能考100多分了？

酷玩实验室
酷玩实验室官方账号

09-14 11:57

500 大模型又双叒叕进化了。

OpenAI凌晨发布新一代大模型，据说在推理能力上已经可以比肩人类。并且这次没有像Sora一样的画饼，发布即可用。

500

那就让我们看看这个新模型到底是怎么个事！ 500

草莓计划

其实这次OpenAI的发布早有"预谋"，在萨姆奥特曼的twitter上，一直都在暗示，即将有一款名为"草莓"的AI项目与大家见面！

500

这草莓是啥呢？就是之前一直传言中可以"媲美"人类，达到AGI（通用人工智能）的大模型。草莓的使命，就是让AI具有推理，规划，甚至是自我学习的能力，从而帮助人类在医疗，科研，教育等有着更快更大的突破。

今天凌晨，我们终于看到了"草莓"，只不过它的名字不是GPT5，而是o1。

根据官方的介绍，o1在推理相关的问题上，比GPT4o有着大幅度的提升。比如针对美国最聪明高中生的数学测试中，以前GPT4o平均只能在15道题答对1.8道，而o1的正确数量飙升到了12.5，如果微调下，o1可以超过美国高中生数学奥林匹克的分数线。

500

同样地，在编码比赛中，分数也从以前的11分干到了现在的89分，在博士级别的问答中，它也可以超过人类专家。

在信息奥林匹克上，经过微调的o1，分数整整提高到了1000分。这是什么概念呢？在人类中，只有7%的参赛者比AI强，剩下的93%都被AI击败了！

500

看完这些，我突然有种第一次见到Sora感觉，这视频真是AI生成的？人类智商最后的防线，就这么被AI攻破了？是不是OpenAI看AI要崩了，又一次画的大饼？

500

答案是什么，只有测过，才清楚。这次o1并没有像Sora一般不可"亵玩”,发布后，就全量推送给订阅用户，也就是说，任何人交上20美元，就可以立刻体验到这个划时代的大模型。

测试完，我有点慌了

那就废话少说，直接开测，学渣还是Jumping，我们一测便知！

我们分别用2024年新课标1卷的高考数学题和阿里巴巴全球数学竞赛预选赛的题目来测o1的推理能力。不过要说明的是，目前推送的是o1预览版，它的推理能力和正式版还有些许差距，所以将来看到的o1会比现在更强。

目前的o1还不能看图，所以这次我们把数学公式转换成LaTex格式，交给AI解答，并且今年新课标1卷的试题中，有两道是需要看图的，刨除这两道题的分数，总分在129分。

500

在题目输入对话框后，可以看到o1比普通大模型多了一个思考的过程。比如上图这道高考数学的多选题，它会先分析题目，然后再找需要用到知识。以这道题来讲，需要用的就是正态分布的知识，然后再去计算概率。

500

在这里也简单放下这道题o1的思考过程，大家可以看下，它整体的思路和人类思考确实非常像！

500

给AI的卷子判完，我直接慌了！91分！如果转换到150分，那就是105分呀，这已经超过我当年的高考分数了。

阿里巴巴数学竞赛的题比较特殊，其中大部分都是证明题，没有固定答案，所以我们就测试了6道具有准确答案的题，像下面这种：

500

答题的整个过程，和人类非常相似，概率论与数理统计忘光的我，基本上也能看明白个大概。

500

最终6个问题，o1回答对了3个，正确率在50%，虽然没有超过姜萍的93分，但作为AI来讲，也非常不错了，毕竟是国际数学比赛。

500

测完下来，感觉和AI相比，我自己像个弱智！当年我高考数学90多分，结果AI不仅在10分钟内做完题，还考了100多分。我连题目都看不懂的数学竞赛题，它能答对一半，虽然不如姜萍，但也能秒杀大部分人了。

说好的AI推理能力不如5岁小孩呢？OpenAI怎么突然就让AI推理能力，噌噌的，超过我这个360个月的婴儿了呢？ 500

思维链，下个大模型的突破点

这其中的秘密就在于思维链（Chain of Thought），也就是上面提到过的把一个复杂问题，拆成多个小问题，依次解决的方法。

之前思维链都是作为提示词技巧来使用。想要AI帮你解决复杂问题，就把这个问题拆解成小问题，然后一个一个的输入给AI。

这次，OpenAI直接把拆解的过程交给AI，人类得到了彻底的解放！实测的结果大家也看到了，AI的逻辑推理能力确实得到了大跨步的前进！

那么OpenAI又是如何实现让AI自我完成思维链的呢？很可惜，目前的OpenAI早就Close了，因此这次并没有公布这些技术细节，但从传闻来看，大概是用到了强化学习。

也就是给AI设置一个规则，这一步逻辑正确+1分，错误-1分，分数越高越好，最终就有了今天的o1。当然其中有很多工程细节，这些都成为了OpenAI的护城河。

接下来可以肯定的是，思维链将成为其他家大模型的突破方向，到时候谁家模型分解问题分解的好，分解的正确将成为能否领先的关键。

除了数学，有了推理能力的AI在各个地方都有着更好应用。比如OpenAI官方就展示用o1，在不到10分钟内做出一个小游戏，网友在实际测试中，甚至做出了3D的贪吃蛇。

500

更让我意外的是，OpenAI还展示了o1在量子物理，基因学，经济学以及认知学带来的帮助，好家伙，这下AI都可以覆盖到这么前沿的领域了？

500

不过每一次AI突破，都有不小的"副作用"，ChatGPT带来论文造假，Midjourney和Sora带来伪造新闻恐慌，这次o1的"副作用"更大。

500

之前GPT4安全测试，生物威胁等级为低，而在o1中，生物威胁不仅升级到了化学，生物，核子，放射威胁，等级也提升到中。

500

500

也就是说，"天网"离我们又进了。AI越强，它造成的破坏也越大，如何控制它，将成为和思维链一样重要的事情，就像我们都希望核子发电，而不希望它爆炸。

从今天开始，各大AI厂商就要考虑这个问题了，不过对于我，我更关心一个问题，就是以后我们还需要考试吗，实在要考的话，能不能让AI替我答一下，毕竟它比我分高！

科技举报

酷玩实验室

1446篇文章 | 50438人关注

+关注

观察者网用户社区

作者文章查看全部>>

孟晓苏认为一线城市放开限购不必犹豫扭捏，所有城镇房屋都应交税，大家怎么看？

最新提问

等44人已参与问答

樊振东这话应该是暂时不考虑退役了吧

最新提问

等7人已参与问答

技校生努力考上985研究生，却因学历无法认定导致考公受阻，真就规定大于能力？

阅读 49065

等105人已参与问答

热点

最近更新的专栏

酷玩实验室
- 靠薅打工人的羊毛，快递柜赚了8个亿？
朝阳少侠
- 大战打不打得起来？
食栗派ChestnutMates

一群对营养有信念和追求的人，做了一个公众号。
- 水果升血糖排行榜，5张图帮你放心吃
娱乐硬糖
- 东亚影视圈深陷Netflix“杀猪盘”？
印客美学

艺术科普向平台。
- 国产剧还在批量制造“赵露思”？
界面有连云
- 节前生猪市场温和波动，猪价受消费提振有限
波士顿圆脸
- 特勤局有内奸吗？！懂王二次遭刺惊险细节疑雾重重
盗月社食遇记

心里有光，哪儿都美。
- 谁点的外卖？！
刘英
- 波音罢工对美国意味着什么？大罢工对波音影响几何？
蜗牛柯基
- 金阿波羅創辦人許清光於18日告訴記者，爆炸的接收器是授權生產的歐洲公司製造

风闻最热

全部专栏