技术解读OpenAI最新“理科生”大模型o1,类似围棋AI的搜索

1. 新推出的o1在数学和编程上达到了人类精英水平,科学问答博士水平、编程奥赛能拿牌、全美数学竞赛前500名。简单地说,就是“理科生”能力很强,远远超过其它AI。文科生水平,就和之前的GPT-4o差不多,或者给人类评估者感觉差一些。

2. 技术秘诀,在于解构模拟了理科生的思维模式:思维链。文科问题是没有什么思维链的,就是不断输出“下一个词”,凑出句子、段落,熟练了就能扯很长。但是理科问题是需要很长的思维链条的,一步推一步,最后得到满意的答案。

3. 神奇的是,机器是可以把这个思维链条模拟出来的!其实我们看大模型做一些简单数学题、逻辑题,回答就包括了完整的思维链条。要注意,这些不是抄答案!有水平的理科生是不能抄答案的,题目变化无穷多。机器给出的,确实是符合人类能理解的思维链。

4. 但是,机器其实不知道自己在干什么!它只是进行了“思维链展开”这个操作。理科生的答案,最终还是文字表述的,一步推一步,每步之间是有文字关联的,机器能“形式主义”地学会。虽然不知道物理和数学实质上什么意思,但是这个链条步骤是人类测试者喜欢的。

5. 一个问题,可能的“思维链展开”有极多种,其中绝大多数都是无效的,链条推理不严谨或者是错误的。但是这就构造了一个庞大的“解空间”,可以在里面优化努力。OpenAI应该是开发了一种理科生模式,让机器在解空间里搜索优化,比文科模式花的时间要长得多。

6. 一个类比就是围棋AI,下棋有“直觉模式”和“搜索模式”。AI的直觉模式就是看棋型直接给出候选点,是一个神经网络的结果,下得很快,能战胜我这样水平不高(但也不低)的业余棋手(因为我们也是靠直觉下棋,算不太动了),但是打不过发现有问题就仔细计算的人类高手。而基于MCTS(蒙特卡洛树形搜索)的搜索算法,就能轻松打败人类,机器自己对弈(强化学习)提升到了人类无法想象的高水平。这次的o1就是引入了搜索模式。

7. 搜索模式会展开思维链,在里面选择概率上似乎更好的链条进行验证、继续展开。因为有随机因素,所以选的链条多半有问题。但是它会继续搜索,总会弄出一些在它自己看来还不错的思维链条,输出给人类。这个搜索算法做好以后,很多数学和编程问题真的就是正确答案。

8. o1也能有强化学习机制,不同版本比较答案正确率,自我迭代。它不依赖很多语言样本了,就是需要改进思维链搜索算法。等于理科生反复做题,找到自己擅长的思路,改正不对的思维习惯。

9. 这确实是机器解构人类理科思维的重大进展,把理科问题像下围棋那样解构成了思维链空间。而这是机器擅长的,等于暴力破解了解空间。人类绝对不会这样下棋、思考,会累死。机器成功模拟了理科生思维,虽然还是不理解在干什么。理论上来说,机器可以超过最厉害理科生的思维能力,暴力搜索模拟思维,然后把结果给人展示,人类会给出真正的智慧“理解问题和答案是什么”。也就是说,机器是极为厉害的“思维工具”,能够帮助人类拓展思维能力,这个空间打开了。我确认这是一个重要的AI领域的大进展。

500

全部专栏