实测可灵2.6：给AI视频上了一堂声音课

市象
市象官方账号

研究真问题，书写真洞察。2小时前

500

中文视频AI迈入“有声之年”。

作者|景行

编辑|杨舟

不得不感叹AI大模型的进步速度。

12月，可灵AI先是发布统一多模态视频大模型可灵O1，紧接着闪电发布可灵2.6、数字人2.0。

可灵2.6的发布，则让困扰视频工作者已久的声画不同步问题得到解决，其核心功能就是音画同出，简单理解，一次生成，能同时做出视频和音频，而且二者实时同步。

其中，可选的音频效果不仅涵盖人声对话、独白，还提供环境音、效果音、乐器演奏乃至说唱等完整的音频生态。

在此之前，部分海外视频模型已经在音画同出领域做出探索，如Google Veo 3.1和OpenAI Sora 2，二者均能实现从口型到动作、声音的同步生成，并与画面完成匹配。

但这些模型同样存在弱点，如音频控制力不足，同角色的不同片段声音、语气统一效果一般，对中文语音的理解不足导致腔调怪异，用户调整困难等等。

在可灵2.6发布后，「市象」也在第一时间试用了产品。在一系列测试后，可以确认的是，AI视频模型，要对过去的创作流程彻底重构了。

01 从哑剧到声临其境

AI视频的音画同出，并非最新功能，此前已有多模型能做到。

“Sora 2是视频生成领域的 GPT-3.5时刻。”

这一表述来自今年9月，OpenAI的官方博客。伴随新一代视频生成模型Sora2发布，OpenAI公开表示，新模型的性能已经超越历代模型，不仅在物理效果上更加精确，同时还配备了同步音频功能。

例如，在生成视频时，能完成复杂的运动动作，或模拟真实运动场的物理表现，同时生成背景音、语音和音效，并将其融入到视频当中。

但面对Sora2、Veo3.1这样的海外一线模型时，不少海外博主，表现出对可灵2.6的认可。

“这比Veo3好多了！相比Veo3，它最大的优势在于：原生支持1080p，这在画质上带来了巨大的提升。”

这一表述来自海外视频博主Simon Meyers，在分享中，他使用可灵2.6制作了一则预告片，并用各种复杂的提示词来测试模型功能：

“我尝试了各种声音和对话，没有发现任何明显的限制——音效、人声，甚至歌声都能完美呈现！当然，和所有视频模型一样，你仍然需要进行一些迭代，但这完全可以接受。语音听起来很逼真，语调也十分精准，总的来说，这是一个巨大的飞跃。”

500

在这段不到一分钟时长的作品中，观众可以直观感受到可灵2.6对音画生成的理解：

单人独白、背景歌曲、视频氛围音效、吉他弹奏声（甚至有远景和近景下，两种吉他音的不同表现）、歌唱声、打击乐器声、气球、搅拌器、电钻、无人机、甚至结尾字幕配合的女声吟唱，多种复杂音频出现在同一作品中，互不干扰，并与画面完美融合。

另一视频博主Curious Refuge选择用新的方式测试可灵2.6——用四组画面和生成词，分别交给Veo3.1和可灵2.6，分别是俯拍镜头，两位骑士骑马穿越森林；推镜头，食客在面馆吃拉面；特写镜头，男子在帆船上独白；固定中景镜头，男子吃掉饼干，并与宠物狗交流。

结论是，可灵2.6的表现令人意外。

500

在各项对比中，可灵2.6在多个测试成绩上要超过Veo3.1，如场景生成、相机运动更符合生成词等等。尽管在Veo 3.1的输出结果中，也有部分表现出色，如音频更为洪亮，但该博主的结论是，在这一轮测试中，可灵2.6略占上风。

事实上，除音画协同外，可灵2.6还重点强化了音频质量和语义理解。前者会让各类音效层次更丰富、接近真实世界的声音效果；后者则让AI对复杂剧情的理解能力更强，理解作者意图。

更多音频元素的融入，则让AI视频效果直逼现实。除了单人讲话外，可灵2.6支持多人多白、不同风格歌声、环境音、物理音效，乃至多种音频组合的混合音效。

这意味着，创作者只需要通过文本描述，就能还原一个物理世界多重环境音的层次感与空间感，获得一个无需后期修改的完整作品。

02 重构工作流

过去的AI视频模型，创作者的工序大概是这样几步：

创作者思考创意，确定文字脚本、画面分镜等方向——由AI生成文、图等素材——进一步通过素材生成视频——后期生成配音和音效，并校对完成。

其中，后期制作是最为耗时的环节之一。对剪辑从业者来说，无论是语音、效果音的制作和筛选，还是视频的后期对轴，将音效与画面逐帧对齐，这一工作对视频质量的影响极大，不仅依赖经验，且过程繁琐，需要在视频工具、音频工具中反复切换。

这让可灵2.6的新功能重要性更为突出。在创作时，用户只需输入画面、动作、声音的三要素精确描述，就能获得一段高质量的AI视频。

这意味着，无论用户是否有AI视频创作经验，都能在可灵2.6模型中体验无门槛的创作流程。

具体方法十分简单，在Web端可灵页面中选择视频生成，文生视频、图生视频均可选择，在下方勾选“音画同出”，并选择品质模式、画面比例和产出条数，输入生成词或参考图即可。

500

需要注意的是，要生成一条满意的AI音画直出视频，用户最好能对视频画面、动作、声音三要素进行精确描述，如画面细节，人物情绪、语速等。

「市象」选择文生视频的方式，首先测试可灵2.6对歌曲、乐器的理解能力，生成词如下：

光线明亮的演播室，歌手正在一边弹奏吉他，发出悠扬的吉他音乐声，一边用温柔的声音演唱中文歌曲。

可以看到，视频中歌手不仅通过自弹自唱方式演唱了一段原创歌曲，且口型、弹奏动作画面与声音形成契合。整个视频不仅能实现画面流畅、光影自然，在音频层面则能做到旋律清晰，吉他演奏声与人声演唱层次分明，互不干扰。

再如这段生成词：中景，慢速推镜头，雨声比较大的阴雨天，有短促的闪电，满脸泥泞的消防员在雨中说，很高兴，我们成功扑灭了大火。

从视频效果看，可灵按要求还原了雨天场景，同时表现出了雨水落在帽子上的物理效果，人物的独白声则与背景的雨声独立开来，形成有层次的混合音效体验。

03 当AI学会说话

在与罗永浩的播客对谈中，影视飓风创始人TIM曾有这样一番表述：在AI面前，创作者10年的努力都没有价值。最多两年，AI就能替换掉一个非常优秀的剪辑师。

从产业场景来看，视频AI正以闪电速度，从自媒体创意辅助者向全能的视频生产力工具转变。特别是可灵2.6将视频模型音画协同能力大幅提升后，一些过去依赖人工完成的创作工作，在AI面前将失去性价比优势。

例如在电商场景下，人工解说的效率将难以匹敌AI。

未来的电商市场，一款产品的商品图片，可以由商家自主拍摄上传，商品卖点的口播，则可以由AI解说完成，具体到使用场景，AI可以帮助商家轻易搭建任何高成本、电影级质感的视频背景，并清晰传递出产品优势。如果凭借人力完成，其成本无疑将是天文数字。

在广告场景下，视频AI则有更大的发挥空间。

以可灵2.6的演示视频为例，模型可高质量完成镜头调度、分镜设计、音频设计、配乐设计、动作设计、音画结合等创作者近乎全方位的意图。

在过去，一条一分钟左右的广告宣传片制作周期可能要花费数周，策划、摄影、剪辑、配音、后期等工种则需要全程跟进，确保最终产出符合创意规划。

如今借助AI模型，创作者只需将创意交给AI来跑，借助文本生成、图片生成等方式产出多个音画协同的视频作品并加以筛选，一些涉及到虚拟形象、特效等后期工作的效果，则能通过AI在几分钟内实现。

比如文本描述“生成一些精灵，用手举起目标产品”“让商品跨出国门，飞向世界各地”等，这不仅效率大幅提高，更降去了大部分成本。

可以说，只要一个行业存在视频内容的产出需求，类似的改变就将持续发生。如自媒体创作、直播、播音传媒、音乐MV、影视制作等等。

一个肉眼可见的改变是，在短视频平台，部分经史人文类博主已经率先应用AI生成视频素材，以节约创作时间。随着可灵2.6发布，中文视频模型音画协同技术成熟，留给博主的创作空间还将进一步拓展。

对所有相关从业者而言，这场声音革命都迫使人思考，当长周期重投入的生产模式变成即时批量生产，当AI学会自己发声，人应该掌握的，应当是把握创意和审美，教AI讲好故事。

科技生活财经举报

市象

研究真问题，书写真洞察。 |

421篇文章 | 203人关注

+关注

观察者网用户社区

作者文章查看全部>>

热门搜索

搜索历史

实测可灵2.6：给AI视频上了一堂声音课

市象
市象官方账号

市象

热点

站务

观察者网评论

请你来预测，2025年这些期待是否会发生？

风闻社区小助手_小风

风闻 “避坑” 版块上线！你的消费避雷指南、好物种草清单，从此常驻不离🎉

最近更新的专栏

风闻最热

全部专栏

热门搜索

搜索历史

实测可灵2.6：给AI视频上了一堂声音课

市象 市象官方账号

热点

站务

最近更新的专栏

风闻最热

全部专栏

市象
市象官方账号