GPT-5 迟迟不发布,都和下面的问题有关
【本文由“哒哒哒哒哒哒哒哒哒哒哒哒哒哒哒哒哒哒哒啦”推荐,来自《受DeepSeek冲击?OpenAI宣布技术路线重大变化,还加大免费力度》评论区,标题为小编添加】
GPT-5 迟迟不发布,都和下面的问题有关:
(1)大模型撞墙:模型的尺寸可以随着 GPU 集群的增加,轻易扩大 10 倍甚至 100 倍,但人类产生的数据在 2024 年底已经被消耗殆尽了,即使模型体积继续增加,但我们已经无法获得比现在更多的的高质量数据了。
(2)基于人类偏好的强化学习(RLHF)最大的问题是:普通人类的智商已经不足以评估模型结果了。
在 ChatGPT 时代,AI 的智商低于普通人,所以 OpenAI 可以请大量廉价劳动力,对 AI 的输出结果进行评测:好/中/差,但很快随着 GPT-4o/Claude 3.5 Sonnet 的诞生,大模型的智商已经超越了普通人,只有专家级别的标注人员,才有可能帮助模型提升。终究有一天,最顶尖的专家也无法评估模型结果了,
AI 就超越人类了吗?并不是。以为让人类来评测,AI 就永远无法逃出人类思维的枷锁。
可以把 AI 想象成一个学生,给他打分的人从高中老师变成了大学教授,学生的水平会变高,但几乎不可能超越教授。RLHF 本质上是一种讨好人类的训练方式,它让模型输出符合人类偏好,但同时它扼杀了超越人类的可能性。
2024 年底大模型预训练撞墙后,使用强化学习(RL)来训练模型思维链成为了所有人的新共识。虽然 OpenAI 并没有公布他们的强化学习算法细节,但最近 DeepSeek R1 的发布,向我们展示了一种可行的方法。
DeepSeek 团队开发RI这个过程大概就是:监督学习(SFT) -> 强化学习(RL) -> 监督学习(SFT) -> 强化学习(RL),经过以上过程,就得到了 DeepSeek R1。
DeepSeek R1 给世界的贡献是开源世界上第一个比肩闭源(o1)的 Reasoning 模型,现在全世界的用户都可以看到模型在回答问题前的推理过程,也就是"内心独白",并且完全免费。
更重要的是,R1向研究者们揭示了 OpenAI 一直在隐藏的秘密:
强化学习可以不依赖人类反馈,纯 RL 也能训练出最强的 Reasoning 模型。
AI 终于除掉了人类反馈的枷锁。
“人工智能,有多少人工就有多少智能”,这个观点可能不再正确了。如果模型能根据直角三角形推导出勾股定理,我们有理由相信它终有一天,能推导出现有数学家尚未发现的定理。
参考资料:Deepseek R1可能找到了超越人类的办法 (qq.com)https://mp.weixin.qq.com/s/YgRgDw8ndSHJwcPNMqWZNQ