技术解读OpenAI最新“理科生”大模型o1，类似围棋AI的搜索

陈经
亚洲视觉科技研发总监

09-13 08:30

1. 新推出的o1在数学和编程上达到了人类精英水平，科学问答博士水平、编程奥赛能拿牌、全美数学竞赛前500名。简单地说，就是“理科生”能力很强，远远超过其它AI。文科生水平，就和之前的GPT-4o差不多，或者给人类评估者感觉差一些。

2. 技术秘诀，在于解构模拟了理科生的思维模式：思维链。文科问题是没有什么思维链的，就是不断输出“下一个词”，凑出句子、段落，熟练了就能扯很长。但是理科问题是需要很长的思维链条的，一步推一步，最后得到满意的答案。

3. 神奇的是，机器是可以把这个思维链条模拟出来的！其实我们看大模型做一些简单数学题、逻辑题，回答就包括了完整的思维链条。要注意，这些不是抄答案！有水平的理科生是不能抄答案的，题目变化无穷多。机器给出的，确实是符合人类能理解的思维链。

4. 但是，机器其实不知道自己在干什么！它只是进行了“思维链展开”这个操作。理科生的答案，最终还是文字表述的，一步推一步，每步之间是有文字关联的，机器能“形式主义”地学会。虽然不知道物理和数学实质上什么意思，但是这个链条步骤是人类测试者喜欢的。

5. 一个问题，可能的“思维链展开”有极多种，其中绝大多数都是无效的，链条推理不严谨或者是错误的。但是这就构造了一个庞大的“解空间”，可以在里面优化努力。OpenAI应该是开发了一种理科生模式，让机器在解空间里搜索优化，比文科模式花的时间要长得多。

6. 一个类比就是围棋AI，下棋有“直觉模式”和“搜索模式”。AI的直觉模式就是看棋型直接给出候选点，是一个神经网络的结果，下得很快，能战胜我这样水平不高（但也不低）的业余棋手（因为我们也是靠直觉下棋，算不太动了），但是打不过发现有问题就仔细计算的人类高手。而基于MCTS（蒙特卡洛树形搜索）的搜索算法，就能轻松打败人类，机器自己对弈（强化学习）提升到了人类无法想象的高水平。这次的o1就是引入了搜索模式。

7. 搜索模式会展开思维链，在里面选择概率上似乎更好的链条进行验证、继续展开。因为有随机因素，所以选的链条多半有问题。但是它会继续搜索，总会弄出一些在它自己看来还不错的思维链条，输出给人类。这个搜索算法做好以后，很多数学和编程问题真的就是正确答案。

8. o1也能有强化学习机制，不同版本比较答案正确率，自我迭代。它不依赖很多语言样本了，就是需要改进思维链搜索算法。等于理科生反复做题，找到自己擅长的思路，改正不对的思维习惯。

9. 这确实是机器解构人类理科思维的重大进展，把理科问题像下围棋那样解构成了思维链空间。而这是机器擅长的，等于暴力破解了解空间。人类绝对不会这样下棋、思考，会累死。机器成功模拟了理科生思维，虽然还是不理解在干什么。理论上来说，机器可以超过最厉害理科生的思维能力，暴力搜索模拟思维，然后把结果给人展示，人类会给出真正的智慧“理解问题和答案是什么”。也就是说，机器是极为厉害的“思维工具”，能够帮助人类拓展思维能力，这个空间打开了。我确认这是一个重要的AI领域的大进展。

500

科技举报

陈经

1543篇文章 | 10581人关注

+关注

观察者网用户社区

作者文章查看全部>>

热门搜索

搜索历史

技术解读OpenAI最新“理科生”大模型o1，类似围棋AI的搜索

陈经
亚洲视觉科技研发总监

陈经

热点

最近更新的专栏

风闻最热

全部专栏

热门搜索

搜索历史

技术解读OpenAI最新“理科生”大模型o1，类似围棋AI的搜索

陈经 亚洲视觉科技研发总监

热点

最近更新的专栏

风闻最热

全部专栏

陈经
亚洲视觉科技研发总监