Deepseek的Nature论文是世界模型的里程碑

Deepseek的这篇论文

是大语言推理模型和所谓的World Model领域超级重要的一篇工作

完全配得上milestone

推理模型和常规的大语言模型(LLM)不同

后者是基于词序列做纯概率的词生成,是端到端范式,不要求中间过程,是寻找最佳结果

推理不同,推理的最终结果当然也非常重要

但是中间环节也具有同等的重要性

需要给出的是最佳路径,所以是强化学习(RL)的问题

这里就不得不提nature的另一篇重要工作,alphago,就是强化学习的杰作

人工智能领域的发展确实日新月异

强化学习恐怕是构建AGI的关键

核心就在于中间奖励

就像作为个体人的一生

就是被一个个不断的中间奖励所激励,反而没有所谓的最终意义,最终的归宿都是呼吸化为空气

站务

全部专栏