像修图一样修视频?实测快手可灵 O1,这才是创作者想要的神器

500

文 / 道哥 

来源 / 智百道 

年关将至,AI行业的热闹不减反增,快手旗下视频生成大模型可灵放出大招,直接端上灵感周,从12月1号到5号每天都要上新。

仔细来看,这次更新涵盖了多模态图片、视频大模型、数字人、音效生成、主体库等新品。

特别的是第一天更新的可灵AI视频“O1模型”,更是号称“全球首个统一多模态视频模型”。

熟悉的人都知道之前可灵大模型名称都是以数字命名,比如,可灵1.6、2.5turbo,这次却起名为O系列,这里的O是OMNI的O,意思就是全部、所有。

在海外网友更是用“insane”来大赞可灵O1。

500

那么具体体验究竟如何?

01 实测可灵O1多模态模型

在我看来,相比起之前的可灵2.5turbo,可灵O1最凸显的特点是交互性的便捷度再提升——之前可灵图片2.1图片模型与视频2.5模型都是在不同的页面,当你想图片编辑和视频编辑时需要不停切换,现在有了O1,用户只需要通过O1一个入口就可以实现跨模态任务创作,无需在不同工具间切换。

难怪有人评价,该技术实现了“像P图一样P视频”的操作体验。

点进去O1入口后,你可以在底部选择切换视频或图片模型。

假如我们切到视频模型,会发现有四个负责提升内容一致性的快捷功能,被罗列在了可灵O1界面顶部。我们可以先选功能再生成,AI会更有针对性,生成效果也更稳健流畅。

敲黑板,这个功能是创作者的福音。

专业创作者动辄创作长达数十分钟的内容,对内容的可控性要求一直很高。没有人脸一致性,广告商、电影制作人等商业创作者就难以将视频生成模型当作可靠工具使用。

其中一个快捷功能为主体库。这就好比内容生成的参考系,让AI别随意发挥,而是按照主体库的样本进行创作。你不光可以选择官方主体也可以自行创建主体库。

先从官方主体库来看,包含各种热门素材,人物栏里,直接给了鲁迅和林黛玉的影视形象,动物则有这两年在网上很火的安卓猫、水豚、香蕉猫等。继续翻,主体还延伸到了道具、服饰、场景和特效,基本把一支视频里会需要用到的主要元素,都整理成了可复用的素材。

对创作者来说,可以把制作好的素材存储起来,方便随时调用,而不是从文件夹里从新上传素材,再制作,效率大有改善。

这次更新最实用的功能,是视频编辑,分别是指令变化和视频参考。因为以前的可灵,是完全没有办法对视频进行编辑或参考的,但是这次,终于解决了这个痛点。

那么,可灵作为编辑的能力如何?

500

以视频生成这是创作者实际场景中十分实用的功能,我们以日常生活场景为例,输入指令,“布偶猫和兔子玩闹,卡通版”,可灵可以按照指令生成顺滑的视频。

以视频增加与修改来看,我还想将视频中的兔子元素替换成《疯狂动物城》中的朱迪,还是这个界面,我直接导入视频,与朱迪兔的图片,输入指令“把视频里的兔子换成朱迪”即可。

500

整体体验下来,O1多主体元素的镜头切换里确实能稳住一致性,局部编辑也很自然,日常修瑕疵完全够用,还能生成10s长视频,对长视频创作者非常友好。特别的是,生成视频时长可以从3秒到10秒,比例也包含9:16、1:1、16:9。

图片生成的话,只需要在页面底部切换模型即可。

让小编十分欣喜的是,可灵生成模式支持1K、2k,涵盖主流常用比例,当然为了避免开盲盒,你也可以选择生成的数量,从中选取自己最满意的即可。

50050002 音画同步,告别无声视频

这次灵感周的重磅更新还有可灵2.6主打音效同步,也就是说,我们终于不用只看无声视频了!

现在用可灵2.6,输入文字不仅能生成画面,还能自动配上双语对话、环境音效甚至背景音乐!小编想让伏地魔臣服于九头蛇组织,输入prompt“伏地魔拿着魔杖打斗,然后站立,大喊九头蛇万岁”,最后实际效果如下。你会发现伏地魔中文发音字正腔圆,整个画面也比较流畅,细腻。

很多人会拿可灵和国外的Sora 2比,但对我们来说,可灵2.6有两个本土化优势。

第一、就像刚才说的中文能力好。

相比 Sora 对中文支持的捉襟见肘,常出现发音错误,作为土生土长的中国模型,可灵2.6 对中文语境和发音的把控游刃有余。

第二、成本更低:生成10秒1080P视频,可灵只要2元,Sora要5元,相当于打了4折。

据了解,未来,可灵还会支持4K超高清和自定义声音,说不定明年,普通人就能以很低的成本将自己的创意落地为一部AI电影。

当然,还有让品牌与主播看到新机遇的数字人模型Avatar 2.0。

以往做个数字人视频,或许得找专业的数字人团队,成本也高。现在只需一张人物照片、一段音乐音频,就能一键生成长达5分钟的唱歌视频。

从可灵官方发布的视频来看,和以前那些只会僵硬对口型的数字人相比,现在的数字人更活灵活现,能随着旋律自然地扬眉、眼神含笑、肢体起伏。

此外,Avatar 2.0在表情控制上有了进步。以前AI人物的表情更像一个假人,现在的数字人能流露自然情绪。动作设计也更灵活了,不只是头部唇同步,全身表演,像肩膀耸动、手势强调,都能和音乐完美契合。测试基准显示,在375个“参考图–音频–文本提示”样例中,该模型在复杂歌唱场景下的响应准确率高达90%以上,不管是真人、AI生成图像,还是动物或卡通角色都能支持。

从背后的技术细节来拆分,Avatar 2.0的厉害之处在于它的多模态导演模块(MLLM Director)。这个模块把多模态大语言模型(MLLMs)融合在一起,能把用户输入的图像、音频和文本提示这三要素,变成一条连贯的故事线。系统先从音频里提取语音内容和情感轨迹,同时,从单张照片里识别人像特征和场景元素,再结合用户给的文本,最后,通过文本跨注意力层把信息注入视频扩散模型,生成全局一致的“视频”。

03 可灵——快手的新增长曲线

PMF一直是AI行业的热词,资本市场有关AI技术能否赚钱,何时赚钱的争论从未停歇。

程一笑今年早些时候曾判断,科技行业的竞争,关键就在于谁能够把AI技术和具体应用场景结合得更好。快手能否将AI质地打磨得更加扎实,自然也就成了检验其演进方向的重要标尺。

与阿里、腾讯、字节偏向构建基础设施的策略不同,快手展现出了更强的实用主义色彩。 去年,快手便聚焦视频生成发布了可灵AI,发布时间甚至比字节的即梦AI早了两个月。

也正是因为更务实的战略预判,这场AI烧钱竞赛中,一直积极布局AI技术的快手仿佛是个“局外人”,因为已经在AI视频赛道见到了真金白银。

在快手三季报中,AI更是贯穿全篇,被提及多达48次,频率远超前两个季度。

除了B端创作者,可灵 AI大模型目前已深入应用于广告素材生成、短剧制作、智能客服等多个核心业务场景,并持续创造可观收入。

财务数据直观地印证了这一增长态势,可灵AI的收入呈现爆发式增长,2025年第一季度收入为1.5亿元,第二季度跃升至超2.5亿元,第三季度更突破3亿元。快手预计,该业务全年收入有望逼近10亿元,较年初目标4.3 亿元实现翻倍增长。

这清晰地表明,AI 技术与快手主营业务之间已形成强大的协同效应,其商业化路径日益清晰。

从机构的看法来看,AI已经不再是一个单点工具,更像是一个影响全生态的发动机。

西部证券认为,在生成式AI应用加速落地的背景下,快手基于多模态大模型技术积极迭代软硬件,或将进一步促进公司主营业务持续增长,同时,公司生成式AI应用不断推进技术落地和商业化也有望为公司带来新的增量空间。

12月2日,港股上市公司快手盘初冲高超5%,表现强劲,截至发稿前,65.35港元/股。这一积极市场反应的背后,是公司在人工智能领域的持续进步获得市场认可。

在AI叙事祛魅的当下,市场不再盲目迷信概念,而是开始审视落地能力与商业回报。

快手可灵O1的发布,不仅是一次产品迭代,更像是对 AI 视频赛道进入深水区的一种回应,企业追求的不仅要技术炫酷,更要从交互、成本、应用场景上解决实际痛点。 在这场关于未来的竞赛中,坚持实用主义的快手,在AI视频赛道已经领先一个身位。

*题图由AI生成

站务

全部专栏