Sora视频生成是AIGC技术想象力的最后一次惊艳,之后的AGI是真正的困难
1. Sora的视频效果是真不错,一分钟长度够,画质和投资很多的科幻大片一样。之前是用生成图片的办法去凑成4秒的视频,视角单一。这次生成的视频是有“世界模型”的,所以有看电影的感觉。
2. 这波AIGC(人工智能内容生成)的热潮,先是图片生成,stable diffusion这些技术,midjourney还赚了不少钱。2022年初GPT-3出来了,已经有重大技术突破了,LLM(大语言模型)让人觉得挺有意思了,展现了不一般的逻辑能力。但IT界以外的还不太关注,知道的人也没看出来LLM能这么火。
3. 直到2022年底ChatGPT能说“人话”了,才引爆了关注。说实在的IT界的人反而有些意外,原来让机器说人话影响这么大。技术底子还是GPT-3,加上了一个RLHF(人类反馈强化学习)让机器说的话符合人类习惯。然后是GPT-4,AI的逻辑能力又大幅提升了。加上全球对大模型的狂热,人工智能业界产生了一个疯狂的想法:AGI(通用人工智能)这次就能做出来!各家大公司都疯了,3000美元成本的英伟达H100,3万美元也买,还一下就几十万个。
4. 接下来就是“多模态”,大语言模型结合多媒体内容,直接就是图片与视频生成。到Sora,等于是把diffusion和LLM成功结合了,做出来了符合人类阶段目标的文生视频。在AIGC这个赛道上,技术想象力就这样了。接下来无非是视频越做越长,场景越来越复杂,低成本生成小电影,不会再有新的惊艳了。
5. 在文本内容生成方面,其实也就这样了。GPT-4的后续GPT-5,应该不会有本质突破。参数多到万亿级别,能力也还是这样。GPT的固有缺陷“幻觉”,还是会有,对于世界并没有符合人类预期的深层逻辑理解。现在怕文本生成的幻觉,不敢放心大胆用。视频生成需要逻辑能力,所以不太可能一个视频生成能直接就成了电影,还是需要人类来主导。
6. 下一个惊艳突破,就是AGI。如果机器真有了人类研发者认可的逻辑能力,文本生成质量会突飞猛进,会有创意,能搞研发。但是,基于目前的神经网络Transformer架构,应该是做不出AGI。现在还是用机器算法模拟智能,模拟得挺象,但不是智能。
7. 模拟出来的智能,和真正的智能,还是有很大区别的。前者是工具,在人类历史上并不罕见,AIGC并不算是特别突出的工具,经济影响力可以评估。AGI如果出来了,就是人类创造的最伟大产品,意义大到没法评估。有的人认为,人类的意义,就是机器智能的“引导程序”,把高阶智能引导出来了,就没人类啥事了。