Sora视频生成是AIGC技术想象力的最后一次惊艳，之后的AGI是真正的困难

陈经
亚洲视觉科技研发总监

2024-02-19 10:08

1. Sora的视频效果是真不错，一分钟长度够，画质和投资很多的科幻大片一样。之前是用生成图片的办法去凑成4秒的视频，视角单一。这次生成的视频是有“世界模型”的，所以有看电影的感觉。

2. 这波AIGC（人工智能内容生成）的热潮，先是图片生成，stable diffusion这些技术，midjourney还赚了不少钱。2022年初GPT-3出来了，已经有重大技术突破了，LLM（大语言模型）让人觉得挺有意思了，展现了不一般的逻辑能力。但IT界以外的还不太关注，知道的人也没看出来LLM能这么火。

3. 直到2022年底ChatGPT能说“人话”了，才引爆了关注。说实在的IT界的人反而有些意外，原来让机器说人话影响这么大。技术底子还是GPT-3，加上了一个RLHF（人类反馈强化学习）让机器说的话符合人类习惯。然后是GPT-4，AI的逻辑能力又大幅提升了。加上全球对大模型的狂热，人工智能业界产生了一个疯狂的想法：AGI（通用人工智能）这次就能做出来！各家大公司都疯了，3000美元成本的英伟达H100，3万美元也买，还一下就几十万个。

4. 接下来就是“多模态”，大语言模型结合多媒体内容，直接就是图片与视频生成。到Sora，等于是把diffusion和LLM成功结合了，做出来了符合人类阶段目标的文生视频。在AIGC这个赛道上，技术想象力就这样了。接下来无非是视频越做越长，场景越来越复杂，低成本生成小电影，不会再有新的惊艳了。

5. 在文本内容生成方面，其实也就这样了。GPT-4的后续GPT-5，应该不会有本质突破。参数多到万亿级别，能力也还是这样。GPT的固有缺陷“幻觉”，还是会有，对于世界并没有符合人类预期的深层逻辑理解。现在怕文本生成的幻觉，不敢放心大胆用。视频生成需要逻辑能力，所以不太可能一个视频生成能直接就成了电影，还是需要人类来主导。

6. 下一个惊艳突破，就是AGI。如果机器真有了人类研发者认可的逻辑能力，文本生成质量会突飞猛进，会有创意，能搞研发。但是，基于目前的神经网络Transformer架构，应该是做不出AGI。现在还是用机器算法模拟智能，模拟得挺象，但不是智能。

7. 模拟出来的智能，和真正的智能，还是有很大区别的。前者是工具，在人类历史上并不罕见，AIGC并不算是特别突出的工具，经济影响力可以评估。AGI如果出来了，就是人类创造的最伟大产品，意义大到没法评估。有的人认为，人类的意义，就是机器智能的“引导程序”，把高阶智能引导出来了，就没人类啥事了。

500

科技举报

陈经

2431篇文章 | 11142人关注

+关注

观察者网用户社区

作者文章查看全部>>

热门搜索

搜索历史

Sora视频生成是AIGC技术想象力的最后一次惊艳，之后的AGI是真正的困难

陈经
亚洲视觉科技研发总监

陈经

热点

站务

观察者网评论

2026年十大预测，这些期待是否会发生？

最近更新的专栏

风闻最热

全部专栏

热门搜索

搜索历史

Sora视频生成是AIGC技术想象力的最后一次惊艳，之后的AGI是真正的困难

陈经 亚洲视觉科技研发总监

热点

站务

最近更新的专栏

风闻最热

全部专栏

陈经
亚洲视觉科技研发总监