像修图一样修视频？实测快手可灵 O1，这才是创作者想要的神器

智百道

昨天 11:16

500

文 / 道哥

来源 / 智百道

年关将至，AI行业的热闹不减反增，快手旗下视频生成大模型可灵放出大招，直接端上灵感周，从12月1号到5号每天都要上新。

仔细来看，这次更新涵盖了多模态图片、视频大模型、数字人、音效生成、主体库等新品。

特别的是第一天更新的可灵AI视频“O1模型”，更是号称“全球首个统一多模态视频模型”。

熟悉的人都知道之前可灵大模型名称都是以数字命名，比如，可灵1.6、2.5turbo，这次却起名为O系列，这里的O是OMNI的O，意思就是全部、所有。

在海外网友更是用“insane”来大赞可灵O1。

500

那么具体体验究竟如何？

01 实测可灵O1多模态模型

在我看来，相比起之前的可灵2.5turbo，可灵O1最凸显的特点是交互性的便捷度再提升——之前可灵图片2.1图片模型与视频2.5模型都是在不同的页面，当你想图片编辑和视频编辑时需要不停切换，现在有了O1，用户只需要通过O1一个入口就可以实现跨模态任务创作，无需在不同工具间切换。

难怪有人评价，该技术实现了“像P图一样P视频”的操作体验。

点进去O1入口后，你可以在底部选择切换视频或图片模型。

假如我们切到视频模型，会发现有四个负责提升内容一致性的快捷功能，被罗列在了可灵O1界面顶部。我们可以先选功能再生成，AI会更有针对性，生成效果也更稳健流畅。

敲黑板，这个功能是创作者的福音。

专业创作者动辄创作长达数十分钟的内容，对内容的可控性要求一直很高。没有人脸一致性，广告商、电影制作人等商业创作者就难以将视频生成模型当作可靠工具使用。

其中一个快捷功能为主体库。这就好比内容生成的参考系，让AI别随意发挥，而是按照主体库的样本进行创作。你不光可以选择官方主体也可以自行创建主体库。

先从官方主体库来看，包含各种热门素材，人物栏里，直接给了鲁迅和林黛玉的影视形象，动物则有这两年在网上很火的安卓猫、水豚、香蕉猫等。继续翻，主体还延伸到了道具、服饰、场景和特效，基本把一支视频里会需要用到的主要元素，都整理成了可复用的素材。

对创作者来说，可以把制作好的素材存储起来，方便随时调用，而不是从文件夹里从新上传素材，再制作，效率大有改善。

这次更新最实用的功能，是视频编辑，分别是指令变化和视频参考。因为以前的可灵，是完全没有办法对视频进行编辑或参考的，但是这次，终于解决了这个痛点。

那么，可灵作为编辑的能力如何？

500

以视频生成这是创作者实际场景中十分实用的功能，我们以日常生活场景为例，输入指令，“布偶猫和兔子玩闹，卡通版”，可灵可以按照指令生成顺滑的视频。

以视频增加与修改来看，我还想将视频中的兔子元素替换成《疯狂动物城》中的朱迪，还是这个界面，我直接导入视频，与朱迪兔的图片，输入指令“把视频里的兔子换成朱迪”即可。

500

整体体验下来，O1多主体元素的镜头切换里确实能稳住一致性，局部编辑也很自然，日常修瑕疵完全够用，还能生成10s长视频，对长视频创作者非常友好。特别的是，生成视频时长可以从3秒到10秒，比例也包含9:16、1:1、16:9。

图片生成的话，只需要在页面底部切换模型即可。

让小编十分欣喜的是，可灵生成模式支持1K、2k，涵盖主流常用比例，当然为了避免开盲盒，你也可以选择生成的数量，从中选取自己最满意的即可。

500 500 02 音画同步，告别无声视频

这次灵感周的重磅更新还有可灵2.6主打音效同步，也就是说，我们终于不用只看无声视频了！

现在用可灵2.6，输入文字不仅能生成画面，还能自动配上双语对话、环境音效甚至背景音乐！小编想让伏地魔臣服于九头蛇组织，输入prompt“伏地魔拿着魔杖打斗，然后站立，大喊九头蛇万岁”，最后实际效果如下。你会发现伏地魔中文发音字正腔圆，整个画面也比较流畅，细腻。

很多人会拿可灵和国外的Sora 2比，但对我们来说，可灵2.6有两个本土化优势。

第一、就像刚才说的中文能力好。

相比 Sora 对中文支持的捉襟见肘，常出现发音错误，作为土生土长的中国模型，可灵2.6 对中文语境和发音的把控游刃有余。

第二、成本更低：生成10秒1080P视频，可灵只要2元，Sora要5元，相当于打了4折。

据了解，未来，可灵还会支持4K超高清和自定义声音，说不定明年，普通人就能以很低的成本将自己的创意落地为一部AI电影。

当然，还有让品牌与主播看到新机遇的数字人模型Avatar 2.0。

以往做个数字人视频，或许得找专业的数字人团队，成本也高。现在只需一张人物照片、一段音乐音频，就能一键生成长达5分钟的唱歌视频。

从可灵官方发布的视频来看，和以前那些只会僵硬对口型的数字人相比，现在的数字人更活灵活现，能随着旋律自然地扬眉、眼神含笑、肢体起伏。

此外，Avatar 2.0在表情控制上有了进步。以前AI人物的表情更像一个假人，现在的数字人能流露自然情绪。动作设计也更灵活了，不只是头部唇同步，全身表演，像肩膀耸动、手势强调，都能和音乐完美契合。测试基准显示，在375个“参考图–音频–文本提示”样例中，该模型在复杂歌唱场景下的响应准确率高达90%以上，不管是真人、AI生成图像，还是动物或卡通角色都能支持。

从背后的技术细节来拆分，Avatar 2.0的厉害之处在于它的多模态导演模块（MLLM Director）。这个模块把多模态大语言模型（MLLMs）融合在一起，能把用户输入的图像、音频和文本提示这三要素，变成一条连贯的故事线。系统先从音频里提取语音内容和情感轨迹，同时，从单张照片里识别人像特征和场景元素，再结合用户给的文本，最后，通过文本跨注意力层把信息注入视频扩散模型，生成全局一致的“视频”。

03 可灵——快手的新增长曲线

PMF一直是AI行业的热词，资本市场有关AI技术能否赚钱，何时赚钱的争论从未停歇。

程一笑今年早些时候曾判断，科技行业的竞争，关键就在于谁能够把AI技术和具体应用场景结合得更好。快手能否将AI质地打磨得更加扎实，自然也就成了检验其演进方向的重要标尺。

与阿里、腾讯、字节偏向构建基础设施的策略不同，快手展现出了更强的实用主义色彩。去年，快手便聚焦视频生成发布了可灵AI，发布时间甚至比字节的即梦AI早了两个月。

也正是因为更务实的战略预判，这场AI烧钱竞赛中，一直积极布局AI技术的快手仿佛是个“局外人”，因为已经在AI视频赛道见到了真金白银。

在快手三季报中，AI更是贯穿全篇，被提及多达48次，频率远超前两个季度。

除了B端创作者，可灵 AI大模型目前已深入应用于广告素材生成、短剧制作、智能客服等多个核心业务场景，并持续创造可观收入。

财务数据直观地印证了这一增长态势，可灵AI的收入呈现爆发式增长，2025年第一季度收入为1.5亿元，第二季度跃升至超2.5亿元，第三季度更突破3亿元。快手预计，该业务全年收入有望逼近10亿元，较年初目标4.3 亿元实现翻倍增长。

这清晰地表明，AI 技术与快手主营业务之间已形成强大的协同效应，其商业化路径日益清晰。

从机构的看法来看，AI已经不再是一个单点工具，更像是一个影响全生态的发动机。

西部证券认为，在生成式AI应用加速落地的背景下，快手基于多模态大模型技术积极迭代软硬件，或将进一步促进公司主营业务持续增长，同时，公司生成式AI应用不断推进技术落地和商业化也有望为公司带来新的增量空间。

12月2日，港股上市公司快手盘初冲高超5%，表现强劲，截至发稿前，65.35港元/股。这一积极市场反应的背后，是公司在人工智能领域的持续进步获得市场认可。

在AI叙事祛魅的当下，市场不再盲目迷信概念，而是开始审视落地能力与商业回报。

快手可灵O1的发布，不仅是一次产品迭代，更像是对 AI 视频赛道进入深水区的一种回应，企业追求的不仅要技术炫酷，更要从交互、成本、应用场景上解决实际痛点。在这场关于未来的竞赛中，坚持实用主义的快手，在AI视频赛道已经领先一个身位。

*题图由AI生成

科技举报

智百道

87篇文章 | 2人关注

+关注

观察者网用户社区

作者文章查看全部>>

热门搜索

搜索历史

像修图一样修视频？实测快手可灵 O1，这才是创作者想要的神器

智百道

智百道

热点

站务

观察者网评论

请你来预测，2025年这些期待是否会发生？

风闻社区小助手_小风

风闻 “避坑” 版块上线！你的消费避雷指南、好物种草清单，从此常驻不离🎉

最近更新的专栏

风闻最热

全部专栏