实测可灵2.6:给AI视频上了一堂声音课

500

中文视频AI迈入“有声之年”。

作者|景行

编辑|杨舟

不得不感叹AI大模型的进步速度。

12月,可灵AI先是发布统一多模态视频大模型可灵O1,紧接着闪电发布可灵2.6、数字人2.0。

可灵2.6的发布,则让困扰视频工作者已久的声画不同步问题得到解决,其核心功能就是音画同出,简单理解,一次生成,能同时做出视频和音频,而且二者实时同步。

其中,可选的音频效果不仅涵盖人声对话、独白,还提供环境音、效果音、乐器演奏乃至说唱等完整的音频生态。

在此之前,部分海外视频模型已经在音画同出领域做出探索,如Google Veo 3.1和OpenAI Sora 2,二者均能实现从口型到动作、声音的同步生成,并与画面完成匹配。

但这些模型同样存在弱点,如音频控制力不足,同角色的不同片段声音、语气统一效果一般,对中文语音的理解不足导致腔调怪异,用户调整困难等等。

在可灵2.6发布后,「市象」也在第一时间试用了产品。在一系列测试后,可以确认的是,AI视频模型,要对过去的创作流程彻底重构了。

01 从哑剧到声临其境

AI视频的音画同出,并非最新功能,此前已有多模型能做到。

“Sora 2是视频生成领域的 GPT-3.5时刻。”

这一表述来自今年9月,OpenAI的官方博客。伴随新一代视频生成模型Sora2发布,OpenAI公开表示,新模型的性能已经超越历代模型,不仅在物理效果上更加精确,同时还配备了同步音频功能。

例如,在生成视频时,能完成复杂的运动动作,或模拟真实运动场的物理表现,同时生成背景音、语音和音效,并将其融入到视频当中。

但面对Sora2、Veo3.1这样的海外一线模型时,不少海外博主,表现出对可灵2.6的认可。

“这比Veo3好多了!相比Veo3,它最大的优势在于:原生支持1080p,这在画质上带来了巨大的提升。”

这一表述来自海外视频博主Simon Meyers,在分享中,他使用可灵2.6制作了一则预告片,并用各种复杂的提示词来测试模型功能:

“我尝试了各种声音和对话,没有发现任何明显的限制——音效、人声,甚至歌声都能完美呈现!当然,和所有视频模型一样,你仍然需要进行一些迭代,但这完全可以接受。语音听起来很逼真,语调也十分精准,总的来说,这是一个巨大的飞跃。”

500

在这段不到一分钟时长的作品中,观众可以直观感受到可灵2.6对音画生成的理解:

单人独白、背景歌曲、视频氛围音效、吉他弹奏声(甚至有远景和近景下,两种吉他音的不同表现)、歌唱声、打击乐器声、气球、搅拌器、电钻、无人机、甚至结尾字幕配合的女声吟唱,多种复杂音频出现在同一作品中,互不干扰,并与画面完美融合。

另一视频博主Curious Refuge选择用新的方式测试可灵2.6——用四组画面和生成词,分别交给Veo3.1和可灵2.6,分别是俯拍镜头,两位骑士骑马穿越森林;推镜头,食客在面馆吃拉面;特写镜头,男子在帆船上独白;固定中景镜头,男子吃掉饼干,并与宠物狗交流。

结论是,可灵2.6的表现令人意外。

500

在各项对比中,可灵2.6在多个测试成绩上要超过Veo3.1,如场景生成、相机运动更符合生成词等等。尽管在Veo 3.1的输出结果中,也有部分表现出色,如音频更为洪亮,但该博主的结论是,在这一轮测试中,可灵2.6略占上风。

事实上,除音画协同外,可灵2.6还重点强化了音频质量和语义理解。前者会让各类音效层次更丰富、接近真实世界的声音效果;后者则让AI对复杂剧情的理解能力更强,理解作者意图。

更多音频元素的融入,则让AI视频效果直逼现实。除了单人讲话外,可灵2.6支持多人多白、不同风格歌声、环境音、物理音效,乃至多种音频组合的混合音效。

这意味着,创作者只需要通过文本描述,就能还原一个物理世界多重环境音的层次感与空间感,获得一个无需后期修改的完整作品。

02 重构工作流

过去的AI视频模型,创作者的工序大概是这样几步:

创作者思考创意,确定文字脚本、画面分镜等方向——由AI生成文、图等素材——进一步通过素材生成视频——后期生成配音和音效,并校对完成。

其中,后期制作是最为耗时的环节之一。对剪辑从业者来说,无论是语音、效果音的制作和筛选,还是视频的后期对轴,将音效与画面逐帧对齐,这一工作对视频质量的影响极大,不仅依赖经验,且过程繁琐,需要在视频工具、音频工具中反复切换。

这让可灵2.6的新功能重要性更为突出。在创作时,用户只需输入画面、动作、声音的三要素精确描述,就能获得一段高质量的AI视频。

这意味着,无论用户是否有AI视频创作经验,都能在可灵2.6模型中体验无门槛的创作流程。

具体方法十分简单,在Web端可灵页面中选择视频生成,文生视频、图生视频均可选择,在下方勾选“音画同出”,并选择品质模式、画面比例和产出条数,输入生成词或参考图即可。

500

需要注意的是,要生成一条满意的AI音画直出视频,用户最好能对视频画面、动作、声音三要素进行精确描述,如画面细节,人物情绪、语速等。

「市象」选择文生视频的方式,首先测试可灵2.6对歌曲、乐器的理解能力,生成词如下:

光线明亮的演播室,歌手正在一边弹奏吉他,发出悠扬的吉他音乐声,一边用温柔的声音演唱中文歌曲。

可以看到,视频中歌手不仅通过自弹自唱方式演唱了一段原创歌曲,且口型、弹奏动作画面与声音形成契合。整个视频不仅能实现画面流畅、光影自然,在音频层面则能做到旋律清晰,吉他演奏声与人声演唱层次分明,互不干扰。

再如这段生成词:中景,慢速推镜头,雨声比较大的阴雨天,有短促的闪电,满脸泥泞的消防员在雨中说,很高兴,我们成功扑灭了大火。

从视频效果看,可灵按要求还原了雨天场景,同时表现出了雨水落在帽子上的物理效果,人物的独白声则与背景的雨声独立开来,形成有层次的混合音效体验。

03 当AI学会说话

在与罗永浩的播客对谈中,影视飓风创始人TIM曾有这样一番表述:在AI面前,创作者10年的努力都没有价值。最多两年,AI就能替换掉一个非常优秀的剪辑师。

从产业场景来看,视频AI正以闪电速度,从自媒体创意辅助者向全能的视频生产力工具转变。特别是可灵2.6将视频模型音画协同能力大幅提升后,一些过去依赖人工完成的创作工作,在AI面前将失去性价比优势。

例如在电商场景下,人工解说的效率将难以匹敌AI。

未来的电商市场,一款产品的商品图片,可以由商家自主拍摄上传,商品卖点的口播,则可以由AI解说完成,具体到使用场景,AI可以帮助商家轻易搭建任何高成本、电影级质感的视频背景,并清晰传递出产品优势。如果凭借人力完成,其成本无疑将是天文数字。

在广告场景下,视频AI则有更大的发挥空间。

以可灵2.6的演示视频为例,模型可高质量完成镜头调度、分镜设计、音频设计、配乐设计、动作设计、音画结合等创作者近乎全方位的意图。

在过去,一条一分钟左右的广告宣传片制作周期可能要花费数周,策划、摄影、剪辑、配音、后期等工种则需要全程跟进,确保最终产出符合创意规划。

如今借助AI模型,创作者只需将创意交给AI来跑,借助文本生成、图片生成等方式产出多个音画协同的视频作品并加以筛选,一些涉及到虚拟形象、特效等后期工作的效果,则能通过AI在几分钟内实现。

比如文本描述“生成一些精灵,用手举起目标产品”“让商品跨出国门,飞向世界各地”等,这不仅效率大幅提高,更降去了大部分成本。

可以说,只要一个行业存在视频内容的产出需求,类似的改变就将持续发生。如自媒体创作、直播、播音传媒、音乐MV、影视制作等等。

一个肉眼可见的改变是,在短视频平台,部分经史人文类博主已经率先应用AI生成视频素材,以节约创作时间。随着可灵2.6发布,中文视频模型音画协同技术成熟,留给博主的创作空间还将进一步拓展。

对所有相关从业者而言,这场声音革命都迫使人思考,当长周期重投入的生产模式变成即时批量生产,当AI学会自己发声,人应该掌握的,应当是把握创意和审美,教AI讲好故事。

站务

全部专栏