OpenAI发布王炸级文生视频，属于作家的时代开启

任易
清华大学硕士

微信公众号「任易」2024-02-17 14:21

OpenAI再次碾压了市场上的所有文生视频企业，不服都不行。

作为大模型从业者，有一种我用尽全力还跟不上领头羊的感觉，真的是深深的无力感。但是作为一个文字创作者，又充满了兴奋感，因为属于作家的时代正在开启。

文字工作者已经可以用100多个字作为提示词来生成一幅图片，比如这个来自日本的Prompt：

雪原を歩く巨大な毛むくじゃらのマンモスが描かれており、彼らの長い毛皮が風にそよいでいます。背景には雪に覆われた木々と、遠くに雪をかぶった壮大な山々が描かれています。午後の光とほのかな雲が温かな輝きを加え、低いカメラアングルからの視点が、これら大きな哺乳類の…

500

但是有了图像，还想要生成视频。我作为一个有技术功底的人，想做个3D视频，还需要学习Unreal Engine，摆布物体，摆放光源，让人物走动，绑定表情和口唇，花大量时间去配置，需要的学习成本、时间成本实在太高，1000字的场景可能要花三天去做个Demo视频，成本高到一个中年人无法接受的程度。

幸好2024年出现了可靠的文生视频技术。其实文生视频已经有不少公司在搞，包括Runway、Pika，以及阿里云推出来的一张图生成跳舞视频等等，试用过之后，还是没法把我脑海里的想象具现成视频。

业界的原始方案，技术理念上也不复杂，就是逐帧生成连续动作的图片，最后拼接在一起变成视频，所以在2023年6月，我们会看见AI生成的视频经常出现一闪一闪的效果，后来各家科技公司都在致力于消除这个效果。

但是Openai这一次再次引领了一个新方向，也就是应用了Transformer。现在OpenAI Sora生成的视频质量，跟业界其他产品相比，差别堪比大学生和小学生。比如刚才的猛犸象，openai就能生成一段稳定的、16:9的、高清的视频。

随着算力芯片的进一步发展，相信未来视频画质还能进一步增强，到那个时候，我们平民导演能够拍摄的，就不会是简单的二人小电影了。

未来短视频平台，可能会再次爆发，利好抖音和快手。在AI Video时代，视频的精致程度，可能会变成最不重要的一环，而创意和有趣，会成为最有价值的卖点。

这就是技术平民化的价值。现在以Openai为引领，以顶尖名校为主力，以开源社区为基础的AI大爆发，就是在把过去被牢牢把持在顶尖科技公司手里的技术，快速普及到平民百姓家。

比如我一直在追《非人哉》，这个动画很有趣，但是并不算是逐帧都非常精细的动画，可惜这个动画片两三年才更新一季；如果有AI辅助创作者生成线稿、本子，再生成视频，我是不是有可能每年追上一季？

如果创作者在AI的帮助下，产出效率极大提升，是不是有可能每天出上一集？对于那些有才华、没有团队、缺少投资的导演，完全可以创造出更惊艳的作品。

比如导演的说戏，就完全可以把自己的想法，先用AI生成一个Demo，给各位主要演员看清楚，这样是不是能够减少NG的次数？另外，这个技术并不利好现在一茬茬出来的新人小鲜肉和小花，因为他们的可替代性太强了，何况还有塌房风险。

如果导演一个人，再拉上一个技术人员，一个勤务人员，完全有可能管理好十个甚至上百个AI，那导演不仅可以做到令行禁止，还能显著提高效率。

如果导演需要的投资变少了，那导演还需要捏着鼻子接受投资人安排过来的关系演员么？如果AI塑造的演员角色比真人更听话，更好调教，那导演还需要花每日一爽的价格聘请明星么？

所以，随着openai Sora展示出了生成一分钟高保真视频的能力，我坚信，这个技术会极大程度地颠覆影视行业和自媒体行业。

也许未来有一天，像我们这样的普通作者，能够仅仅从自己的作品中创作长篇电影，最终把对艺术和影片的解释权，从好莱坞手里夺走，讲述我们自己的创意和自己的故事，每一个人都有能力去具现自己的想象。

开源精神万岁

我在2023年，主要是以大模型训练和大模型应用为主，等到自己开始动手做了，体会到创新的难度之后，现在我对OpenAI团队全是仰慕，他们才代表了先进生产力的发展方向，不得不服。

什么是开宗立派？就在于领先者探索出来一条有可能走得通的路，然后跟随者看到了成果，坚定了信心，全球的才智之士都会继续沿着这条路走下去。OpenAI做出的最大贡献，就是开宗立派，随后开源社区开始大规模跟上，并且提供了很多新的Idea。

而Openai Sora的方案，最大的特点是利用Transformer+Diffusion生成视频，连续生成了30帧×60秒的视频，也就是1800张图片。

500

这个思路的创新点在于Transformer，这也不是OpenAI的首创，而是来自开源社区。前几天 Berkeley 做的 LWM，也是拿 Transformer 来做视频生成的方案。

500

到了今天我才明白为什么meta要开源llama，显著加速了开源社区在大模型领域的发展，原因就在于大模型这个东西发展到精确可控的文生视频之后，再加上新一代的AR头盔，而且吸引更多的开源团队加入，真的有可能进一步催熟元宇宙。

openai首先靠大力出奇迹，搞出来首个1750亿参数的大模型GPT-3，然后搞出来首个MOE架构的1750亿参数大模型GPT-4，接着搞出来Function Call（功能调用）和agent，再次引领潮流。

随后在文生图领域拿出了DallE，诞生就是巅峰。然后又重新定义了在文生视频领域后来居上，SORA从出生就碾压了所有同类公司。

在AI领域，openai干成的事情，制造的影响力，简直比最近三十年各家科技公司都大，因为他让普通用户体会到科技的力量，而且能引领着开源社区形成大模型创新上的合力，这才是科技以人为本的样子。

技术创新都是双刃剑。从2024年开始，大家必须需要掌握鉴别AI造假的能力，技术从来都是双刃剑，发展到现在这个程度，用DeepFace、FaceFusion来给视频换脸，然后用SoVITS克隆人声，普通人完全可以轻易做出来一段假视频，那时候有图有视频都不算真相了。

我在我的深度搜索课里也曾经讲过，孤证不立。如果只是利益相关方提供的一段视频，没有官方摄像头作为印证，没有其他在现场的人拍摄的视频作为印证，没有行人，没有车辆，没有可供验证的地标，时间和光线角度不符；哪怕视频看起来再真，也不能相信。连视频都不能相信，那就更不能相信录音和语音电话的真实性了。

但是，就算AI生成视频是把双刃剑，但是他带来的便利，远超过他带来的风险。毕竟君子生非异也，善假于物也。大家必须在2024年学会，把大模型应用在你的工作流程中，否则你会被那些善用AI的人在效率上碾压。

继续保持谨慎乐观。

科技举报

任易

微信公众号「任易」 |

238篇文章 | 562人关注

+关注

观察者网用户社区

作者文章查看全部>>

热门搜索

搜索历史

OpenAI发布王炸级文生视频，属于作家的时代开启

任易
清华大学硕士

任易

热点

站务

观察者网评论

请你来预测，2025年这些期待是否会发生？

风闻社区小助手_小风

风闻“投资者保护”：守护你的财富，共筑理性投资路

最近更新的专栏

风闻最热

全部专栏

热门搜索

搜索历史

OpenAI发布王炸级文生视频，属于作家的时代开启

任易 清华大学硕士

热点

站务

最近更新的专栏

风闻最热

全部专栏

任易
清华大学硕士