Deepseek的Nature论文是世界模型的里程碑
Deepseek的这篇论文
是大语言推理模型和所谓的World Model领域超级重要的一篇工作
完全配得上milestone
推理模型和常规的大语言模型(LLM)不同
后者是基于词序列做纯概率的词生成,是端到端范式,不要求中间过程,是寻找最佳结果
推理不同,推理的最终结果当然也非常重要
但是中间环节也具有同等的重要性
需要给出的是最佳路径,所以是强化学习(RL)的问题
这里就不得不提nature的另一篇重要工作,alphago,就是强化学习的杰作
人工智能领域的发展确实日新月异
强化学习恐怕是构建AGI的关键
核心就在于中间奖励
就像作为个体人的一生
就是被一个个不断的中间奖励所激励,反而没有所谓的最终意义,最终的归宿都是呼吸化为空气