阿里开源的新视频模型,没准会成为中国 Adobe
昨晚,阿里巴巴正式开源了 All in one 的视频编辑大模型通义万相 Wan2.1-VACE,而这个模型,没准能让阿里在视频制作领域成为中国未来的 Adobe 。
为什么这么说呢?在介绍 VACE 之前,我们先铺垫一些视频生成类模型产品的现状。
这类产品给大众最深的印象通常是即时生成带来的惊艳感。不仅仅是生成质量,其抽卡特性使得每次相同输入有不同结果输出的体验犹如盲盒般有趣。
不过,对于把 AI 当作生产力的专业群体,抽卡只是工作的第一步,实际上他们经常崩溃于二次、多次编辑阶段。
想象一个场景,一家初创公司想要在社交媒体上发布一条 30 秒的新品宣传短片。这家公司的产品是一台便携式咖啡机,目标受众是城市白领和旅行爱好者,员工希望让 AI 帮忙完成短片的制作。这样的需求在实践中仅仅靠 AI “ 一次性输出 ” 素材 ” 或 “频繁抽卡”,是永远是行不通的。
因为设计需求本身会在第一次生成开始就不断变化,比如市场部提出的亮点( “ 快速萃取 ”、“ USB-C 供电 ”、“ 轻量化 ” )常常在后续会议中被临时调整。此外,好的创意需要反复打磨,比如画面节奏、文案语气、镜头切换等,只有看了初稿后才知道“对不对味”。
如果 AI 只能一次性产出结果,则任何后期修改都会很困难甚至相当于重来。所以只有具备多轮交互和可编辑性后,创作周期才能大大缩短,同时保持创意灵活性,AI 才能成为真正的生产力工具。
因此,密切的人机交互目前是最契合 AI 发展的路线,但想做到这一点,非常的难。
比起文字,像素类的对象生成的可控性显然要更加难。不考虑语义约束或物理约束,以状态数比较来看,一句 10 个 token 的文本,以 GPT-4 为例,其词表大小约为 10^5,那么总状态数是 (10^5)^10=1.0×10^50。对于彩色 RGB 视频( 每个像素 3 个 RGB 通道,每个 RGB 通道 256 个取值,共 768 个取值 ),比如128x128像素,3秒10帧的视频,共491520个像素,潜在状态数为768^491520,其状态数数量级远远大于文本。
这也就不难理解为什么视频生成产品目前普遍速度慢且贵,而这其实也更体现二次编辑相对于无脑抽卡的效率和成本优势了。
现阶段,图像、3D 的生成可控性已有不错进展,但视频的可控生成仅在近期才有肉眼可见的成果。而且主流的相关产品仍有较大的局限性,这其实对创意落地的限制性很大。
通义万相团队向知危表示,视频生成与编辑面临较大挑战:
视频生成与编辑的碎片化问题:传统的视频生成或编辑方法通常针对单一任务( 如文生视频、参考生成、对象替换 ),缺乏统一框架,导致不同任务需独立的模型,链路串联效率低下、推理成本高。
可控性不足:现有方法难以同时支持多维度或多任务编辑( 如主体、内容、结构同时参考 ),用户无法像编辑文本一样灵活地调整视频。
高质量内容生成需求:短视频、影视行业需要高保真、高一致性的视频生成,而现有模型易出现帧间闪烁、语义不一致等问题。
以专业 P 图软件为例,一款设计软件之所以能在紧张的生产流程中真正派上用场,关键在于它提供了种类繁多、可按需组合的工具生态:从修补画笔、内容感知填充,到通道混合器、位图/矢量蒙版,再到动作脚本和第三方插件,几乎每一种创意诉求都能找到对应 “ 利器 ”。
这让设计师能够在不同项目阶段灵活切换思路与技法,无需跳出工作界面就能完成。
而昨晚,阿里巴巴正式开源的通义万相Wan2.1-VACE,就在AI视频领域实现了生产级别的多任务能力。
开源地址如下:
GitHub:https://github.com/Wan-Video/Wan2.1
HuggingFace:https://huggingface.co/Wan-AI
魔搭社区:https://www.modelscope.cn/organization/Wan-AI?tab=model
Wan2.1-VACE 拥有 1.3B 和 14B 两个版本,其中 1.3B 版本适合本地部署和玩法微调,可在消费级显卡运行( 此前已发布 Preview 版 ),支持 480P 分辨率,14B 版本生成质量更高,支持 480P 和 720P 分辨率。
现在,开发者可在 GitHub、Huggingface 及魔搭社区下载体验。该模型还将逐步在通义万相官网和阿里云百炼上线。
Wan2.1-VACE 主打 “ 功能最全 ” 与 “ 可编辑性 ”,单一模型不仅支持最基础的文生视频,还同时支持多种功能。不必再为了单一功能训练一个新的专家模型,也省去了部署多个模型的开销。通义万相团队表示:Wan2.1-VACE 是第一个基于视频 DiT 架构的同时支持如此广泛任务的一体化模型。
文本条件大幅提升了视频生成的可编辑性,但却不足以精准控制视频中的所有细节( 例如精确的布局、对象形状等 ),因此 Wan2.1-VACE 扩展了多任务能力以实现更加精细的可编辑性。
总体而言,Wan2.1-VACE 的多任务能力包括:
图像参考能力,给定参考主体( 人脸或物体 )和背景,生成元素一致的视频内容。
视频重绘能力,包括姿态迁移、运动控制、结构控制、重新着色等( 基于深度图、光流、布局、灰度、线稿和姿态等控制 );
局部编辑能力,包括主体重塑、主体移除、背景延展、时长延展等。
比如图像参考生成,在示例中,Wan2.1-VACE 基于小蛇和女孩的参考图生成了一个视频,女孩在视频里轻轻摸了摸小蛇。图像参考生成对于添加新元素很重要,并能保证多镜头视频中的元素一致性。
提示词:在一个欢乐而充满节日气氛的场景中,穿着鲜艳红色春服的小女孩正与她的可爱卡通蛇嬉戏。她的春服上绣着金色吉祥图案,散发着喜庆的气息,脸上洋溢着灿烂的笑容。蛇身呈现出亮眼的绿色,形状圆润,宽大的眼睛让它显得既友善又幽默。小女孩欢快地用手轻轻抚摸着蛇的头部,共同享受着这温馨的时刻。周围五彩斑斓的灯笼和彩带装饰着环境,阳光透过洒在她们身上,营造出一个充满友爱与幸福的新年氛围。
局部编辑是高效可编辑性也不可或缺的,能实现删除、替换原有元素以及加入新元素的能力。在下图中,Wan2.1-VACE 用视频局部编辑能力将女士手里的平板电脑不留痕迹地移除了。
提示词:纪实摄影风格,房产自媒体博主站在一间现代化的客厅中央。博主穿着简洁时尚的衣物,面带微笑,两只手举在身前,手上空无一物正对着镜头介绍房屋情况。背景是一间宽敞明亮的客厅,家具简约现代,落地窗外是绿意盎然的花园。房间内光线充足,温馨舒适。中景全身人像,平视视角,轻微的运动感,如手指轻点屏幕。
此外,通过进一步结合视频重绘,Wan2.1-VACE 能基于不同的运动控制能力来控制新元素的呈现。
比如,草图/边缘图适合控制物体整体的运动轨迹,下图展示了 Wan2.1-VACE 基于草图运动轨迹和战斗机参考图生成的战斗机运动以及镜头运动效果。
提示词:战斗机视角,急速旋转,在云层中与敌机缠斗,突然翻滚,急速下摇,导弹擦过机身,尾焰在云层中划出弧线。
灰度视频提供了内容的明暗信息,可用于指导模型为其上色( 彩色化 )或重建细节。在下图中,Wan2.1-VACE 还基于灰度图生成了在运行的火车旁边骑马的男子的视频。
提示词:一个外国男人骑着一匹棕色的马在铁轨旁奔跑。他穿着一件灰色衬衫和黑色牛仔帽,背景是一列蒸汽火车正在行驶中,它由多个车厢组成,并且冒着烟雾。天空是橙色的日落景象。
人体姿态图( 骨架关键点 )提供了直观的结构信息,非常适合用来控制视频中角色的动作。在下图中,Wan2.1-VACE 基于人体姿态图生成了男孩练习空手道的视频。
提示词:写实风格摄影,10 岁白人男孩身穿白色武术服,系着黄色腰带,在宽敞明亮的房间里练习空手道。他专注而有纪律地出拳、摆架势,动作流畅自如。背景模糊处理,隐约可见堆放的垫子等健身房设备。镜头跟随他的动作,水平左右摇移,捕捉中近景画面,展现他控制力强且连贯的动作。
光流描述了帧间像素的运动,是表达细粒度运动结构的重要模态。在下图中,Wan2.1-VACE基于光流图生成了话梅掉进水里引发水花飞溅的画面。
提示词:纪实摄影风格,一颗深紫色的话梅缓缓落入透明玻璃杯中,溅起晶莹剔透的水花。画面以慢镜头捕捉这一瞬间,水花在空中绽放,形成美丽的弧线。玻璃杯中的水清澈见底,话梅的色彩与之形成鲜明对比。背景简洁,突出主体。近景特写,垂直俯视视角,展现细节之美。
Wan2.1-VACE 还支持视频背景延展和视频时长延展。在下图中,Wan2.1-VACE通过视频背景延展把女士拉小提琴的特写还原为原内容已暗示的大型演奏场景。
提示词:一位优雅的女士正在热情地拉着小提琴,她的身后是一整个交响乐团。
通过视频时长延展,Wan2.1-VACE 呈现了镜头后方的越野骑手跑到前方小坡的画面。
提示词:越野摩托车比赛场景,一个装备齐全的运动员骑着摩托车登上土坡,车轮溅起高高的泥土。
综合来看,上述案例呈现了 Wan2.1-VACE 多任务能力之间的有机关系。图像参考和局部编辑提供基础删除、替换、添加新元素的能力,视频重绘则控制新元素的具体呈现,不同模态各有所长,视频背景延展和视频时长延展在空间、时间上提供了更加开放的想象空间或还原完整场景。
所以要发挥 Wan2.1-VACE 的全部优势,应该探索各种原子能力的自由组合,只有这样才能实现生产级别的场景落地,而 Wan2.1-VACE 确实能够很好地支持这一点。
比如在以下这个多镜头宣传片中,Wan2.1-VACE 自由地组合了多种能力来实现每个镜头的需求,同时很好地保持了镜头间的人物一致性。
比如这个片段组合了画面延展、姿态迁移、图片参考,用画面延展扩大窗户,用姿态延展让女生做伸展运动,用图片参考加入更多小鸟。
这个片段组合了局部编辑和图片参考,用图片参考将小象娃娃通过“任意门”瞬间穿梭到园区场景标记好的局部区域中。
这个片段组合了运动控制和图像参考,让小象从地上浮起然后一飞冲天。
这个片段组合了局部编辑、姿态迁移和图片参考,用姿态迁移控制女孩的步态,通过局部编辑和图片参考给女孩快速更换服装。
最后,这个片段组合了姿态迁移和图片参考,将专业滑板运动姿态赋予给女孩,结合不同的景观图片,使女孩踩着滑板车在城市、沙漠、大海中穿梭。
如此给力的生产级工具,开发者怎能不爱?从通义万相目前的成绩就可见一斑。
自今年 2 月以来,通义万相已先后开源文生视频模型、图生视频模型和首尾帧生视频模型,目前在开源社区的下载量已超 330 万,在 GitHub 上斩获超 1.1w star,是同期最受欢迎的视频生成模型。预计 Wan2.1-VACE 也将带来新一波社区活跃。
将这么多的能力有机融合到一个模型,通义万相是怎么做到的?为解答该问题,知危跟通义万相团队进行了交流。
通义万相向知危表示,要实现这一点,其实会面临不少挑战:
多任务统一建模:如何在单一架构中兼容生成、编辑等多种任务,并保持高性能。
细粒度控制:如何解耦视频中的内容( 物体 )、运动( 时序 )、风格( 外观 )等属性,实现独立编辑。
数据与训练复杂性:多任务的数据构建需要按照任务的特性分别进行处理,并组建出高质量的训练集。
在建模部分,VCU ( Video Condition Unit ) 是 Wan2.1-VACE 实现全面可控编辑的核心模块,“ VCU 的使用是实现任务统一的源头,也是区别于其他专有模型仅支持特定任务的不同之处。” VCU 的关键性体现在:
统一表征:将视频生成和编辑的输入定义为输入视频、输入掩码、参考图像等;
多任务统一:VCU作为中间层,隔离任务差异( 如生成或编辑 ),以实现不同任务的表征注入到生成模块中。
细粒度控制:通过VCU的解耦设计,可实现对任务区分和精细化控制。
简单解释一下 VCU 的构成。实际上,Wan2.1-VACE 的多任务能力可以表示为三种模态数据的统一输入接口,这三种模态即文本提示、参考图以及 mask。
根据多种视频任务能力对三种多模态输入的要求,将其分为四类:
文本转视频生成 ( T2V ) ;
参考图像生成 ( R2V ) ;
视频到视频编辑 ( V2V ) ,即视频重绘;
蒙版视频到视频编辑 ( MV2V ) ,即视频局部编辑。
VCU 用统一的表示方式,将以上四类任务的输入都表示为相同的三元组形式 ( T,F,M ) ,T 为文本提示,F 为参考图像或上下文帧,M 为 mask:
在 T2V 中,不需要上下文帧或 mask,每个帧默认为 0 输入值,每个 mask 默认为 1 输入值,表示所有这些 0 值帧像素都将重新生成。
对于 R2V,在默认 0 值帧序列前插入额外的参考帧( 比如人脸、物体等 ),mask 序列中,默认帧的 mask 为全 1,参考帧的 mask 为全 0,意味着默认帧应重新生成,参考帧应保持不变。
在 V2V 中,上下文帧是输入视频帧( 比如深度、灰度、姿态等 ),mask 默认为 1,表明输入视频帧都将重新生成。
对于 MV2V,上下文帧和 mask 都是必需的,mask 部分为 0、部分为 1,mask 为 1 的帧将重新生成。
由此,便将不同的任务统一到了一个模型中,如下图所示。
VCU:四类视频处理任务的统一输入表示。
图源:https://arxiv.org/pdf/2503.07598
VCU 的结构非常简洁漂亮,但也是基于团队长期的技术积累演化而来,通义万相表示,“ ACE 和 ACE++ 是我们在图像领域进行统一生成和编辑的最初尝试,并取得了不错的效果。而 VACE 也是 ACE 在视频领域中的灵活运用,其中 VCU 的构建思想也是从图像中的统一输入模块演变而来。”
而要实现 VCU 本身,其实也会有一些挑战,通义万相表示,“ VACE 采用了在输入侧进行统一的策略 ( early fusion ),不同于使用额外的编码模块对不同的输入模态进行处理,我们以简单、统一为设计原则。其核心挑战在于要使用单一模型来实现与专有模型相比的效果。”
构建多任务模型对数据质量的要求也更高,通义万相团队需要对视频进行第一帧标记,比如图像内有哪些物体,并进行位置框选和定位,去除目标区域过小或过大的视频,还需要在时间维度上计算目标是否长期出现在视频中,避免目标过小或消失带来的异常场景。
为了让模型适应灵活的能力组合,通义万相团队将所有任务随机组合进行训练。对于所有涉及 mask 的操作,执行任意粒度的增强,以满足各种粒度的局部生成需求。
训练过程则采用分阶段、从易到难的方法。通义万相团队先在预训练文本转视频模型的基础上,专注 mask 修复和扩展等任务。接下来,逐步从单输入参考帧过渡到多输入参考帧,以及从单一任务过渡到复合任务。最后,使用更高质量的数据和更长的序列来微调模型质量。这使得模型训练的输入可以适应任意分辨率、动态时长和可变帧率。
近几年的视频生成 AI 模型经历了飞速演进,完成了从 “ 能生成 ” 到 “ 能驾驭生成 ” 的飞跃。这其中,多模态输入的演进体现了从 “ 一把钥匙开一把锁 ” 到 “ 多线索协同指挥 ” 的转变。
不同模态各有所长:文本给出抽象语义,图像提供外观细节,姿态/草图限定结构,光流约束运动连续性,而参考帧确保身份恒定等等。这一历程充分展现了AI视频的潜力:通过不断引入新的控制维度,人类将不断增强让AI按意图创造视频的能力。
融合不同控制维度,视频生成模型开始具备综合理解与决策的能力,能够在复杂条件下平衡各方需求。这不仅极大提高了生成的可编辑性,也使模型更适应真实创作场景下多种素材混合作用的需求。
可以看出,Wan2.1-VACE 是完成这一转变的关键成果。
展望未来,如何进一步提高生成现实度、扩展时长、增强交互性( 例如实时对生成视频进行调整 ),以及结合物理和 3D 知识避免失真,将是持续的研究重点。但可以肯定的是,可编辑、多条件的视频生成范式已基本确立,并将成为数字媒介生产的新范式。
而这种生产范式,或许可以在未来彻底改变视频后期制作的工作流,颠覆掉视频制作工作人员手中的 PR、AE 以及 Final cut 等工具。