上手试了快手的视频AI,我发现它竟然有点领先。。。

本文原创于微信公众号:差评  作者:世超

500Sora 再不向大伙儿开放,就真要被同行们给 “ 碾压 ” 了。。。

先是前几天,快手新搞出来个文生视频的模型可灵 AI ,悄摸儿的在外网火了。

一出来,网友们就直接把它和 Sora 放在一个擂台上,让人意外的是,可灵 AI 竟然一点都不输,有的时候效果比 Sora 还要好一点

500

就比如 “ 蚂蚁在巢穴中爬行 ” 这样的提示词,可灵生成视频的质感跟 Sora 差不太多,而且它还营造出了太阳光照进洞穴时的光影。

500

还有同样是 “ 拉力赛车 ” 的画面,可灵的理解比 Sora 更贴合原意一点。咱们能很明显看到, Sora 画面里的车在原地打圈,而可灵生成的赛车是真的有在赛道上飙。

500

500它也能像 Sora 一样生成两分钟所有的视频,像这个 “ 小男孩在花园里骑自行车经历秋冬春夏四季变换 ” 的视频,画面稳定性、光影变化啥的,跟 Sora 那段经典视频有得一拼。

相较于 Sora ,可灵 AI 还会更适合咱们中国宝宝体质一些,像大熊猫这类的中国元素,它也能迅速 get 到。

500

甚至已经有老外为了玩上快手的 AI , “ 求 ” 着让国内网友帮他生成一些视频。。。

500

500而就在世超琢磨可灵 AI 的时候,网上又突然蹦出来一个新的视频模型 Luma AI ,同样能生成长达两分钟的高清视频。而且官网示例的效果,也是直逼 Sora 。

像是它生成人在潜水时的瞬间,脸部周围气泡变化跟真的一样,在整个大幅度运动过程中,脸部也没出现啥畸变。

500

还有房间爆炸时,镜头推进的画面,整得人都有种看好莱坞大片的错觉了。

500

看到这儿,不知道差友们什么感受,反正世超已经有点儿坐不住了,立马托朋友从快手那要来了个内测资格,也顺便登上了 Luma 的试用界面,准备亲自上手试试这两个 AI ,看看它们到底有没有传说中的这么厉害。

据它们俩的宣传,可灵 AI 和 Luma 算是都有各自擅长的领域。可灵这块儿,网友们都说它生成吃播视频是一绝,而 Luma 官网上宣传的则是 “ 电影感 ” ,还能通过图片 + 提示词生成视频。

500那咱也不废话了,直接在它俩各自的地盘上开测。

首先咱们来到的比试地点,是快手比较擅长的 “ 吃播 ” ,让它们同时生成一段 “ 一个男人在吃意大利面 ” 的视频。

有一说一,可灵 AI 除了嗦面的时候有点不稳定,其他画面说是从快手的吃播视频里截取的,估计都有忽悠到不少人。

500

到了 Luma 这儿,画风就突然变得诡异了,男嘉宾就跟有超能力一样,啥餐具都不用就开吃了,而且嘴巴动得也非常不自然。

500

既然生成吃播的视频 Luma 不太行,那接下来咱就试试它比较擅长的 “ 电影感 ” 。

500本以为 Luma 要大施拳脚了,没想到它一上来就拉了坨大的

让它生成一段 “ 外星人大战机器人 ” 的画面,还是那个老毛病,同一个人物,一会儿变成机器人,一会儿变成怪兽,全程都没看到打斗的痕迹。

500

同样的提示词喂给可灵,它倒是把战斗的场面给整出来了,就是有点经不起细看,手里拿的刀都是软的。。。

500

好在之后的表现还行,让它们同时生成 “ 顶级富豪在别墅开派对 ” 的视频,都挺有模有样,唯一的缺点就是面部表情都不太稳定

500

500

500各自擅长的领域比完了,那紧接着来第二回合,考验下这俩 AI 对物理世界的理解程度

让它们生成一段 “ 猫咪和正在睡觉的主人互动 ” 的视频,先是 Luma 这边,它一上来就直接摆烂,只生成了一段黑色猫咪的视频,连人的影子都没看到。。。

500

要不说全靠同行衬托,对比之下可灵 AI 的效果就强多了。有猫,有睡觉的人,硬要扣缺点的话,就是没怎么看到猫和主人之间的互动。

后面世超又试了好一些,发现在一些简短的提示词跟前,快手可灵的表现都还不错,比如玩偶熊在瀑布前弹吉他,小样骑自行车等等。

500

500

Luma 这边就跟使唤久了,想罢工一样,各种 Bug 都出来了,小熊弹个吉他都能弹出幻影来。

500

500还把羊自个儿变成了自行车。。。

500

更抽象的是,因为 Luma 有图片输入,在试的时候总能整出来不少乐子。比如让它给猪猪侠的表情包整个后续,搞到一半就给整成惊悚片了。。

500

还有经典的 “ 外国老头 nice ” 梗图,他喝可乐是这样子的,多少有的鬼畜。

500

甚至还有网友给各种梗图,都脑补上了后续。

500总之,整体体验下来,世超觉得,要论效果,快手可灵 AI 的效果还是会更稳定、更好一点。最起码和其他能用到的视频 AI 比,它已经是相当不错了。

而把模型训练成这样,快手是摸着 Sora 这块石头过河,也到用了 DiT 架构。把 transformer 融合进扩散模型里,这样一来,通过堆参数、堆训练数据等等就能提升模型性能,而在视频数据这块儿,快手自然是不缺的。

500

不过现在除了效果外,视频 AI 还有另外一个不得不重视的问题,商业化

不知道大伙们有没有注意到,虽说 Sora 之后,类似的 AI 是一个接一个,连字节、阿里这样的大厂们,都抢着上这个赛道。

大部分厂商在宣布自己也有这种模型后,几乎就很少有进一步的动作了

像是 Sora ,已经好几个月没更新过他们的案例库,其他有向大伙们开放的视频 AI ,也只更新到 5s 的视频长度就没再继续了。。。

500

500而搞成这样子,说白了还是做视频 AI 太花钱,又找不到啥赚钱的路子。

像是学图片 AI 一样收会员费,根本就 cover 不掉它的成本,据调查机构 Factorial Funds 称,以 Sora 为例,它 30 亿参数(主流猜测 )的训练成本,比 1.8 万亿参数的 GPT-4 还要多。

这还只是训练,实际用时的推理成本更多,国内有 AI 企业做过一个折算,差不多两分钟的视频要花掉 180 块钱,看这数据,也难怪 AI 厂商们都不敢公开进度。。。

但话说回来,世超还是挺看好快手做这种 AI 的,毕竟它本身就有个视频平台在。说不定之后可灵也能像因为黏土滤镜爆火的 Remini 一样,靠 “ 发帖助手 ” 的定位摸索出一个赚钱的路子来。

这不,世超立马就想到了一个点子,不如学一学这次的 Luma ,玩玩抽象,指不定流量就来了。( 狗头 )

图片、资料来源

快手可灵 AI、Luma AI、X@WojtekKardys

虎嗅,抖音快手战火烧到AI

500

全部专栏