能用简短的文字生成逼真的短视频,OpenAI发布的新软件有多厉害

去年,因为ChatGPT爆红,OpenAI公司成为主流。现在,OpenAI正在将人工智能技术带到视频领域。

该公司周四(2月15日)推出了新的生成式人工智能模型Sora,其工作原理类似于OpenAI的图像生成人工智能工具DALL-E。用户输入想要的场景,Sora就会返回一个高清短视频。Sora还可以受静态图像启发生成短视频,并扩展现有视频或填充缺失的帧。

随着聊天机器人和图像生成器进入消费者和商业世界,视频可能成为生成式人工智能的下一个前沿领域。虽然创造性的机会将激发人工智能爱好者,但随着全球重大政治选举的临近,新技术可能带来严重的虚假信息问题,让人感到担忧。根据机器学习公司Clarity的数据,人工智能生成的深度伪造软件(deepfakes)数量同比增长了900%。

OpenAI希望利用Sora 与 Meta和谷歌等公司的视频生成人工智能工具进行竞争。谷歌公司今年1月宣布推出Lumiere。其他初创公司也有类似的人工智能工具,比如Stability AI,该公司有一款名为Stable Video Diffusion的产品。亚马逊还发布了“Create with Alexa”,这个模型能够根据提示生成儿童动画短片。

Sora目前只能生成时间不超过一分钟的短视频。OpenAI由微软提供支持,正在努力提供更广泛的人工智能模型套件。该公司将多模态(结合文本、图像和视频生成)作为目标。

OpenAI首席运营官Brad Lightcap去年11月接受CNBC采访时表示:“世界是多模式的。想想我们作为人类如何面对世界,如何与世界互动。我们看到的东西,我们听到的东西,我们说的东西——世界原比文字大得多。所以,对我们来说,把文本和代码作为单一的模式,单一的接口,总是不完整的。我们必须思考这些模型有多强大,它们能做什么。”

到目前为止,Sora仅供一小部分安全测试人员或“红队”使用,他们正在测试该模型在错误信息和偏见(misinformation and bias)等方面的漏洞。除了在其网站上可以找到的10个样本片段外,该公司还没有发布任何公开演示。他们表示将在周四晚些时候发布随附的技术论文。

OpenAI还表示,它正在构建一个“检测分类器”(detection classifier),可以识别Sora生成的视频片段,并计划在其输出中包含某些元数据(metadata),以帮助识别AI生成的内容。Meta也打算在今年大选年用同一类型的元数据用来识别人工智能生成的图像。

Sora是一种扩散人工智能模型,与ChatGPT一样,它使用了谷歌研究人员在2017年的一篇论文中介绍的Transformer架构。

OpenAI在声明中写道:“Sora是能够理解和模拟现实世界的模型的基础。”

全部专栏