Sora未成曲调先有声?

500

出品©一笔封禅

作者@何鲸洛

如果说2022年末。

OpenAI聊天机器人ChatGPT的面世是为AI技术张开了“嘴巴”。

那么2024年2月16日。

OpenAI宣布推出全新的生成式人工智能模型“Sora”,则是为AI技术打开了“眼睛”。

①Sora一出谁与争锋?▽

2月16日。

OpenAI宣布推出全新的生成式人工智能模型“Sora”。

据了解。

通过文本指令。

Sora可以直接输出长达60秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。

例如一个Prompt(大语言模型中的提示词)的描述是:

在东京街头。

一位时髦的女士穿梭在充满温暖霓虹灯光和动感城市标志的街道上。

500

在Sora生成的视频里。

黑衣红裙女子走在霓虹街头。

不仅动作连贯、镜头的移动,周遭,以及水面的反射效果都相当自然。

一眼看去。

甚至有种电影的质感。

也难怪有网友表示Sora要颠覆电影业。

500

更早之前。

2023年8月。

Runway将Gen-2生成视频的最大长度从4秒提升到了18秒。

9月。

Runway又官宣Gen-2新增了导演模式,可以控制“镜头”的位置和移动速度。

11月。

Runway家标志性的AI视频生成工具Gen-2,迎来了“iPhone时刻”般的史诗级更新。

依旧是简单一句话输入。

但视频效果却可以拉到4K超逼真的高度!

此后不久。

Gen-2又新增了“Motion Slider”的功能,可以调节视频中的动作幅度。

与此同时。

2023年11月。

美国AI初创公司Pika labs发布了第一个产品Pika 1.0。

Pika 1.0的新功能主要有以下几个方面:

一是用文本和图像生成视频,只需要输入几行文本或上传图像,就可以创建简短、高质量的视频;

二是编辑更改视频,输入相关文本,实现对背景环境、衣着道具等元素的增减或者更改;

三是切换视频风格,例如在黑白、动画等不同风格中转化;

四是更改视频的宽高比。

500

专注于开发人工智能AI产品的初创公司Stability AI发布了其最新的 AI 模型 ——Stable Video Diffusion。

这款模型能够通过现有图片生成视频,是基于之前发布的 Stable Diffusion 文本转图片模型的延伸,也是目前为止市面上少有的能够生成视频的 AI 模型之一。

2024年1月。

字节跳动发布文生视频大模型MagicVideo-V2。

MagicVideo-V2是一个视频生成流水线,通过集成多个模块,包括文本到图像模型、视频运动生成器、参考图像嵌入模块和插值模块,实现从文字到视频的自动化生成。

首先,T2I模块将文本转化为1024×1024的图像;

然后,I2V模块将其转化为动画,生成600×600×32的帧序列。

接着,V2V模块增强并完善视频内容,最后通过插值模块将帧数扩展到94个,从而在保证高保真度的同时,也保证了时间上的连续性。

②Sora的星辰大海?▽

此前。

Sora其实OpenAI研发GPT深度学习模型中的一种“副产物”。

GPT(Generative Pre-trained Transformer)是一系列由OpenAI提出的非常强大的预训练语言模型,这一系列的模型基于Transformer算法,可以在非常复杂的NLP任务中取得非常惊艳的效果,例如文章生成,代码生成,机器翻译,Q&A等,而完成这些任务并不需要有监督学习进行模型微调。

2018年6月。

初代GPT上线。

2019年2月。

GPT-2上线。

2020年5月。

在训练约2000亿个单词、烧掉几千万美元后,史上最强大AI模型GPT-3一炮而红。

从初代GPT到GPT-3。

从技术的角度。

算法模型基本没有变化,但通过堆人、堆算力来进行训练后的结果就是GPT-3已经初步能够“理解”人类语言。

2021年1月。

OpenAI发布DALL·E模型,人工智能根据一段话就可直接生成图像。

2022年4月。

OpenAI发布DALL·E 2.0版,允许对图像输出进行简单修改。

9月。

OpenAI发布自动语音识别ASR系统Whisper。

500

11月底。

基于GPT-3.5模型的ChatGPT上线之后迅速火爆全网。

2023年3月。

GPT-4上线。

2024年2月14日。

OpenAI官宣ChatGPT新增记忆功能。

2月16日。

Sora上线。

它建立在过去对DALL · E和GPT模型的综合研究之上,提出了一种新的模型可能。

不仅可以理解用户在提示中提出的要求,还能理解它们在物理世界中的存在方式。

500

更重要的是:

Sora作为一种扩散模型(diffusion models)。

除了能够根据文本指令生成视频之外。

还能够获取现有的静态图像并从中生成视频,准确地动画图像的内容并关注小细节,获取现有视频并对其进行扩展或填充缺失的画面。

但Sora也不是没有缺陷。

虽然其产出的视频运镜自然,物体运动符合规律,镜头间逻辑一致性好。

但其视频逻辑性较差。

如一分钟的东京街头女郎漫步,女郎走路过程中存在腿部变形、腿部交叉换位时错乱、右腿连续两次在前方迈步等错误;

一段提示词为 " 一个人跑步的场景 " 中,主角在跑步机上反向奔跑;

提示词为 " 考古学家在沙漠发现塑料椅子 " 的视频中,椅子呈现悬浮状态。

提示词为“五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐”的视频中,狼的数量会变化,一些凭空出现或消失。

对此。

OpenAI表示:

Sora可能难以准确模拟复杂场景的物理原理,可能无法理解因果关系,可能混淆提示的空间细节,可能难以精确描述随着时间推移发生的事件,如遵循特定的相机轨迹等。

但是相比于同类产品Gen-2和Pika 1.0。

Sora已经走出很成功的一步。

500

而且。

考虑到GPT深度学习模型是OpenAI AI技术的“大脑”。

Whisper作为“耳朵”;

ChatGPT作为“嘴巴”;

Sora作为“眼睛”。

OpenAI的每一次技术迭代。

都有可能带来系统性的革新。

Sora将有可能成为虚拟与现实之间交互的主流算法。

当AI能够真正的“理解”文字、图像和视频之后。

就已经越来越接近通用人工智能AGI了。

③Sora隐患难除?▽

与此同时。

近日。

博主@AI 疯人院 在网络上发布了一部利用 AI 技术生成的《西游记》动画短片。

500

这段3分56秒的动画短片以《西游记》原著第一集为蓝本,通过 AI 技术将石猴降生到拜师学艺的故事生动地呈现在观众面前。

除了《西游记》外。

@AI 疯人院 还用 AI 生成了丝绸之路、龙生九子、克鲁苏神话等视频动画,目前他在抖音上有超过十万粉丝,收获了超过百万点赞。

500

而其步骤:

1、构思;

2、用文字生成静态图片;

3、让图片动起来;

4、整理剪辑。

由此可见。

用AI技术生成视频几乎没有门槛。

尤其是Sora类产品的出现。

个人以及小规模团队生成AI视频将会大规模“涌现”。

但在AI生成视频涌现创意变现之前。

AI滥用带来的伦理问题必将是最大的障碍。

1月27日。

#泰勒斯威夫特AI不雅照疯传#

500

《纽约时报》称。

该图片在禁封之前被浏览了4700万次。

而这。

还不是霉霉第一次被AI造假。

此前。

由人工智能生成的假泰勒·斯威夫特(Taylor Swift)带货广告在社交媒体Facebook上传播。

500

广告词主要为:

“嘿你们好,我是泰勒·斯威夫特。由于包装出错,有3000套Le Creuset炊具套装无法正常线下销售,转向线上出售。有一个好消息分享给你们,我与Le Creuset联手进行促销——有20位忠实粉丝将免费获得赠送的炊具套装。”

事情发生后。

涉事公司对此迅速做出回应称。

Taylor Swift没有参与任何消费者赠品活动,所有关于产品促销的活动均来自官方社交活动。AI“深度造假”技术合成了她的声音,并将声音与她的形象和Le Creuset广告片段拼凑在一起。

更早之前。

2018年。

加蓬总统Ali Bongo因中风在公共视野中消失了数月。

政府为了安抚民心。

在新年时公开了一段总统录制的新年致辞。

这段新年致辞使用了Deepfake技术进行生成,但这个视频非但没有起到安抚民心的作用,反而让军方的资深大佬发现异常,最终导致了兵变。

在这个事件中。

“AI换脸”技术成为干扰政治选举,降低政府公信力的一大推手。

500

早在2017年年底。

Deepfake第一次亮相就引起了轰动。

这是一个社区里面一位名叫Deepfakes的用户,将《神奇女侠》盖尔·加朵的脸,嫁接到了一部成人电影女主角身上,还将视频上传至该网站。

可以预见。

Sora类产品上市后。

由于门槛更低;

还有技术加持;

一些似是而非的东西将会更加难以辨别。

500

这还仅仅只是民用市场。

放在国际关系中。

某国用来栽赃就不用“洗衣粉”那么低级了。

500

最后。

我们再聊几句。

虽然Sora真的很有想象力。

但至少当前还依旧稚嫩。

站务

最近更新的专栏

全部专栏