OpenAI发布王炸级文生视频,属于作家的时代开启

OpenAI再次碾压了市场上的所有文生视频企业,不服都不行。

作为大模型从业者,有一种我用尽全力还跟不上领头羊的感觉,真的是深深的无力感。但是作为一个文字创作者,又充满了兴奋感,因为属于作家的时代正在开启。

文字工作者已经可以用100多个字作为提示词来生成一幅图片,比如这个来自日本的Prompt:

雪原を歩く巨大な毛むくじゃらのマンモスが描かれており、彼らの長い毛皮が風にそよいでいます。背景には雪に覆われた木々と、遠くに雪をかぶった壮大な山々が描かれています。午後の光とほのかな雲が温かな輝きを加え、低いカメラアングルからの視点が、これら大きな哺乳類の…

500

但是有了图像,还想要生成视频。我作为一个有技术功底的人,想做个3D视频,还需要学习Unreal Engine,摆布物体,摆放光源,让人物走动,绑定表情和口唇,花大量时间去配置,需要的学习成本、时间成本实在太高,1000字的场景可能要花三天去做个Demo视频,成本高到一个中年人无法接受的程度。

幸好2024年出现了可靠的文生视频技术。其实文生视频已经有不少公司在搞,包括Runway、Pika,以及阿里云推出来的一张图生成跳舞视频等等,试用过之后,还是没法把我脑海里的想象具现成视频。

业界的原始方案,技术理念上也不复杂,就是逐帧生成连续动作的图片,最后拼接在一起变成视频,所以在2023年6月,我们会看见AI生成的视频经常出现一闪一闪的效果,后来各家科技公司都在致力于消除这个效果。

但是Openai这一次再次引领了一个新方向,也就是应用了Transformer。现在OpenAI Sora生成的视频质量,跟业界其他产品相比,差别堪比大学生和小学生。比如刚才的猛犸象,openai就能生成一段稳定的、16:9的、高清的视频。

随着算力芯片的进一步发展,相信未来视频画质还能进一步增强,到那个时候,我们平民导演能够拍摄的,就不会是简单的二人小电影了。

未来短视频平台,可能会再次爆发,利好抖音和快手。在AI Video时代,视频的精致程度,可能会变成最不重要的一环,而创意和有趣,会成为最有价值的卖点。

这就是技术平民化的价值。现在以Openai为引领,以顶尖名校为主力,以开源社区为基础的AI大爆发,就是在把过去被牢牢把持在顶尖科技公司手里的技术,快速普及到平民百姓家。

比如我一直在追《非人哉》,这个动画很有趣,但是并不算是逐帧都非常精细的动画,可惜这个动画片两三年才更新一季;如果有AI辅助创作者生成线稿、本子,再生成视频,我是不是有可能每年追上一季?

如果创作者在AI的帮助下,产出效率极大提升,是不是有可能每天出上一集?对于那些有才华、没有团队、缺少投资的导演,完全可以创造出更惊艳的作品。

比如导演的说戏,就完全可以把自己的想法,先用AI生成一个Demo,给各位主要演员看清楚,这样是不是能够减少NG的次数?另外,这个技术并不利好现在一茬茬出来的新人小鲜肉和小花,因为他们的可替代性太强了,何况还有塌房风险。

如果导演一个人,再拉上一个技术人员,一个勤务人员,完全有可能管理好十个甚至上百个AI,那导演不仅可以做到令行禁止,还能显著提高效率。

如果导演需要的投资变少了,那导演还需要捏着鼻子接受投资人安排过来的关系演员么?如果AI塑造的演员角色比真人更听话,更好调教,那导演还需要花每日一爽的价格聘请明星么?

所以,随着openai Sora展示出了生成一分钟高保真视频的能力,我坚信,这个技术会极大程度地颠覆影视行业和自媒体行业。

也许未来有一天,像我们这样的普通作者,能够仅仅从自己的作品中创作长篇电影,最终把对艺术和影片的解释权,从好莱坞手里夺走,讲述我们自己的创意和自己的故事,每一个人都有能力去具现自己的想象。

开源精神万岁

我在2023年,主要是以大模型训练和大模型应用为主,等到自己开始动手做了,体会到创新的难度之后,现在我对OpenAI团队全是仰慕,他们才代表了先进生产力的发展方向,不得不服。

什么是开宗立派?就在于领先者探索出来一条有可能走得通的路,然后跟随者看到了成果,坚定了信心,全球的才智之士都会继续沿着这条路走下去。OpenAI做出的最大贡献,就是开宗立派,随后开源社区开始大规模跟上,并且提供了很多新的Idea。

而Openai Sora的方案,最大的特点是利用Transformer+Diffusion生成视频,连续生成了30帧×60秒的视频,也就是1800张图片。

500

这个思路的创新点在于Transformer,这也不是OpenAI的首创,而是来自开源社区。前几天 Berkeley 做的 LWM,也是拿 Transformer 来做视频生成的方案。

500

到了今天我才明白为什么meta要开源llama,显著加速了开源社区在大模型领域的发展,原因就在于大模型这个东西发展到精确可控的文生视频之后,再加上新一代的AR头盔,而且吸引更多的开源团队加入,真的有可能进一步催熟元宇宙。

openai首先靠大力出奇迹,搞出来首个1750亿参数的大模型GPT-3,然后搞出来首个MOE架构的1750亿参数大模型GPT-4,接着搞出来Function Call(功能调用)和agent,再次引领潮流。

随后在文生图领域拿出了DallE,诞生就是巅峰。然后又重新定义了在文生视频领域后来居上,SORA从出生就碾压了所有同类公司。

在AI领域,openai干成的事情,制造的影响力,简直比最近三十年各家科技公司都大,因为他让普通用户体会到科技的力量,而且能引领着开源社区形成大模型创新上的合力,这才是科技以人为本的样子。

技术创新都是双刃剑。从2024年开始,大家必须需要掌握鉴别AI造假的能力,技术从来都是双刃剑,发展到现在这个程度,用DeepFace、FaceFusion来给视频换脸,然后用SoVITS克隆人声,普通人完全可以轻易做出来一段假视频,那时候有图有视频都不算真相了。

我在我的深度搜索课里也曾经讲过,孤证不立。如果只是利益相关方提供的一段视频,没有官方摄像头作为印证,没有其他在现场的人拍摄的视频作为印证,没有行人,没有车辆,没有可供验证的地标,时间和光线角度不符;哪怕视频看起来再真,也不能相信。连视频都不能相信,那就更不能相信录音和语音电话的真实性了。

但是,就算AI生成视频是把双刃剑,但是他带来的便利,远超过他带来的风险。毕竟君子生非异也,善假于物也。大家必须在2024年学会,把大模型应用在你的工作流程中,否则你会被那些善用AI的人在效率上碾压。

继续保持谨慎乐观。

全部专栏