亲测快手“可灵”大模型：惊艳不输Sora，但有点短

AI蓝媒汇
AI蓝媒汇官方账号

欢迎关注公众号：jizhezhan07-03 07:46

500

作者|陶然

编辑|魏晓

文生视频赛道，迎来一份产自国内玩家惊喜：

快手「可灵」视频生成大模型：

寒冷的北极，探险队穿越冰雪，使用雪地摩托追逐极光

六月，可灵大模型官网上线，不但效果对标OpenAI年初发布的Sora，还一改此前各家视频大模型以发布案例为主、只能观看“演示”的套路，直接开放邀请测试权限。

排队申请测试的人数几天时间内便迅速破万，尽管通过审核的用户每天都在增加，但仍有超过35万用户仍在等待中。

500

可灵AI申请界面

可灵大模型的火爆程度，可见一斑。

七麦数据显示的iOS端数据，进入六月后，随着可灵大模型在快影App的公测，应用下载量在一个月的时间内始终波动上升，峰值单日下载量超过26000，预估单月下载量超过62万。

500

对于一款定位创作工具的App来说，这个数据确实可观。近一个月，快影在摄影与录像App榜单中始终位处于前十五位，目前已经高居第六，前五则是老几位图像、视频领域的国民级App。

500

这种备受关注，初期或许有一部分是来自快手在大模型领域的“突然出招”，但现如今，已经体验过的用户，包括蓝媒君在内，几乎都已经为大模型的成像效果叹服。

年初，一段文字生成一段几乎以假乱真视频的Sora全网爆火。业界猜测视频模型这边“大的要来了”。但实际情况是，OpenAI对自家这款看起来遥遥领先的模型，却迟迟未有对外开放体验的迹象，迫切想体验的用户们只能一等再等。

而向来务实的快手，这回则掏出了直接能用的产品，高调宣布：老铁，这回大的可能真来了。

国产Sora成色几何？

严格来说，快手在大模型领域给外界的印象，并非那一类声量极高的头部玩家。但这次发布的文生视频大模型可灵，却着实惊艳了行业一把：

不管是对用户提示词的理解，还是最终成像质量和速度，说句超预期，并不过分。

真实的案例最为直观，先来一个白天的简单场景：

烈日下的广袤沙漠中，考古团队发现了古老遗迹的残存，掘出了神秘古文物。

把更多的人物和更复杂的场景加进去：

在绿树成荫的户外咖啡馆里，顾客们坐在木桌椅上，享受着阳光和咖啡的香气。

最后再测一下光影效果最复杂的夜景中，物体运动的效果：

城市夜幕下，高速赛车在闪烁的霓虹灯光中飞驰，追逐者们穿越繁忙的十字路口，转弯时车尾划过闪光的水坑。

除了镜头移动速度普遍偏慢之外，画面上可灵大模型几乎没有出现大面积的bug。

当然，目前版本的模型在处理多人场景时，成像效果确实还不稳定：

在繁忙的城市公园里，一群年轻人展示着街舞，他们在音乐的节拍下与观众和谐互动。

以及，在处理一些比较细节的人物动作，如“踢球”这类提示词时，对具体运动的表现力仍有提升空间，并且目前生成视频的时长似乎被限制在了5秒：

生成一段时长为15秒的视频，展现一位球员在足球场上奔跑，接到传球后准备射门。

在生成第一段（时长一般为5秒）视频过后，可灵大模型界面给用户提供了一个“延长视频”的选项，用户可以修改或细化提示词，在保留原视频主体的基础上，延长视频的整体时长。

500

5秒的原视频被延长到了10秒左右，官方称视频时长最多可达两分钟（帧率30fps）。但若要达到这个最大时长，意味用户着需要延长视频数十次，并等待极长的时间，显然对于用户来说，投入产出比并不理想。

不过，至少在文生视频领域，技术层面快手显然已迅速跻身到行业内的领先集团之中。

尽管，可供对比的玩家并不多——从文生图模型快进到文生视频模型，涉及到多模态领域的转变和扩展，是很大跨度的一层台阶。

因此，能达到公测水平，同时还要有足够算力支撑公测的产品，更是少之又少。以至于突然杀入前排之后，除了OpenAI的Sora，快手一时间确实找不到太多公开产品进行贴身对垒。

突然领先，是这样的。

有机会超越OpenAI吗？

目前来看，仍有差距。

至少，仅看官网演示的部分——时长充足、画面稳定，动作和光影的流畅程度完全以假乱真，Sora的模型能力对比同行，确实堪称“降维打击”。

包括快手在内，同行比较现实的选择现阶段仍是保持研发进度、有阶段性的产出落地。

而在技术层面，可灵大模型与Sora，其实有着些许相似的设计思路。

架构选择上，快手大模型团队采用的方案，是类似Sora模型的DiT结构，使用Transformer替代了传统的卷积U-Net。这一转变增强了处理和生成能力，解决了U-Net在处理复杂任务时冗余、感受野和定位精度的问题。

三个问题的优化，使得模型效率和性能提高、能够捕捉到更宽广的特征范围，模型对细节的识别能力也随之增强。

而快手自研推出的3D VAE网络，实现了时空同步压缩，相较于Stable Diffusion所用、存在明显的信息冗余的2D VAE空间压缩方案，获得了较高的重建质量的同时在训练性能和效果也取得了最佳平衡。

配合新设计的、能更准确地建模复杂时空运动并兼顾具运算成本的全注意力机制（3D Attention）作为时空建模模块，有效提升了模型的建模能力。

500

当然，后台的模型能力是一方面，怎么让用户输入的自然语言对接上大模型的能力，同样需要做额外的建构。

为此，快手专门设计了一款能有效扩展和优化用户提示词的语言模型，相当于在自然语言输入和大模型生成视频之间，再加入一道AI处理工具，将自然语言转录成更符合AI逻辑的字符，从而提升模型对文本指令的响应能力，让视频的主题更清晰、叙事更连贯。

整套设计环环相扣，大模型才能读懂用户需求，并精准建构流畅且高质量的画面。

结语

在文生视频领域，快手算是跑在了行业前排——在一些同行还在聊概念的阶段，直接把产品抛向市场，交给用户测试。

并且生成的视频，也已经完全能够触及“可用”的范围。

当然，提升空间也是有的，比如一些比较复杂或者小众的动作指示处理，比如时长和运镜自由度等等的进一步增加。

可灵大模型，从各方面看应该都只是快手AI布局的前几步，秀一下在快速迭代的AI视频生成领域中，为用户需求提供解决方案能力和技术优势。

至于文生视频何时能作为用户内容的补充，甚至成为缺少素材时创作的主流选项，老铁们应该也可以开始期待了。

Lanmeih/今日话题

快手可灵大模型你体验了吗？评价如何？

科技举报

AI蓝媒汇

欢迎关注公众号：jizhezhan |

587篇文章 | 227人关注

+关注

观察者网用户社区

作者文章查看全部>>

热门搜索

搜索历史

亲测快手“可灵”大模型：惊艳不输Sora，但有点短

AI蓝媒汇
AI蓝媒汇官方账号

AI蓝媒汇

热点

最近更新的专栏

风闻最热

全部专栏

热门搜索

搜索历史

亲测快手“可灵”大模型：惊艳不输Sora，但有点短

AI蓝媒汇 AI蓝媒汇官方账号

热点

最近更新的专栏

风闻最热

全部专栏

AI蓝媒汇
AI蓝媒汇官方账号