首个国产开源模型SkyReels-V1为短剧创作者披上“AI战衣”
短剧作为热度最高、用户最广的内容形态之一,近年来进入爆发阶段。
不仅为影视创作者带来丰厚的回报,也成为科普作者、品牌们竞争追逐的形式,以更有创意的手段来触达用户。而AI技术,对于短剧创作模式的改变,以意想不到的速度发生了。
此前,Sora、Runway等视频生成模型的诞生,能够制作出质量不算太差的AIGC视频,提高了短剧的生产效率。但其主要是少数创作者的工具,广大普通人很难解锁。
2月18日,昆仑万维发布并开源SkyReels-V1视频大模型,并同步开源了基于视频基座模型的表情动作可控算法SkyReels-A1。
作为中国首个面向AI短剧生成的开源模型,SkyReels-V1让每一个普通人都能披上“AI战衣”,化身短剧创作的超级战士。
当千千万万普通人向短剧市场奔赴而来,那么AI短剧的新世界,也就被SkyReels-V1打开了。
大模型和AIGC的视频生成能力,赋予了短剧创作无限的生机。
理论上讲,只要有创意,有灵感,其他如剧本、人物、镜头等,都可以通过生成来实现,极大地提升短剧的生产效率。
但现实中,此前视频生成模型在短剧领域也存在不少桎梏,导致AI短剧未能爆发:
1.用不到。Sora闭源模型的技术垄断,许多短剧创作者无法通过先进模型来进行创作,生产效率不高。
2.不好用。受限于模型能力,此前AI短剧的人物,大多都存在“恐怖谷效应”,即表情或肢体僵硬不自然,很接近人类又不够逼真,让观众无法代入。
比如我们希望某视频生成模型让林黛玉动起来,但表情从忧愁到笑容的过渡不够细腻,细微的表情变化没有体现出来,手部活动也显得呆板,整体就不够自然。
3.用不起。Sora等闭源模型的订阅费昂贵,ChatGPT Pro版高达200美元/月,而且调整画面需要反复生成,tokens消耗巨大,成本和经济负担也很高。
不难看到,AI短剧要爆发,第一步是国产化,在视频生成模型打破Sora等海外模型的垄断;第二步是拟人化,让AI演员走出“恐怖谷”,表演更加生动自然、惟妙惟肖,才能确保AI短剧有比较好的内容质量;第三步则是开源,让广大普通人也能用得到、用得起。
中国首个面向AI短剧生成的开源模型SkyReels-V1,便完成了一次“走出恐怖谷”的技术跋涉。
很多观众吐槽内娱演员的是“人机式演技”,一个主要问题就是演员的表情让人出戏,要么缺乏变化,无论高兴、害怕、愤怒,都只会面无表情地瞪大双眼,看起来十分僵硬呆板,要么五官乱飞,在一些情绪激烈的表演中控制不好表情。
对于竖屏为主的短剧,人物一般是画面的焦点与核心,情绪主要是由微表情和肢体动作来渲染的,因此更考验演技。所以,模型生成的AI演员人物,必须像老戏骨一样,能够对脸部微表情,进行精准控制。
比如同样是林黛玉,我们用SkyReels-V1生成的动态视频,表情更为丰富,过渡也更加自然,细节特征拉满。
相比传统视频生成模型,SkyReels-V1能够生成影帝级微表情,极大增强了视频生成的可控性。进一步深挖,会发现这得益于昆仑万维自研的表情动作可控算法SkyReels-A1,让AI演员的演技有了极大突破。
演好一个短剧角色,AI首先得有丰富的表达能力。SkyReels-A1可以实现11种人物表情理解,针对影视戏剧中的表情,如不屑、不耐烦、无助、厌恶等,能够结合剧本情境做出各式各样的表情。
接下来,算法还得驱动人物面部,高度还原出类似真人的微表情表演。相比runway act-one,SkyReels-A1实现了更大幅度的人物表情驱动,让人物表演看起来更有感染力,完成电影级的表现。
下面这个片段中,男主角看到敌人的皱眉、战斗时坚毅的眼神、最后奔跑时肾上腺素飙升的紧张感……这些细节都精细地体现了出来。
此外,好演员的“声台行表”缺一不可,表情、情绪与人物动作都要相得益彰。这种动态过程很容易丢失细节、前后不一致,导致观众出戏。SkyReels-A1能够深度还原表情变化、皮肤肌理、身体动作跟随等多维度细节,并保持一致性。
下面女孩在手臂大幅度动作时,面部的表情没有失真,另一侧身体几乎没有任何运动,看起来更像真人。
目前,SkyReels-A1已经成为开源生态中最佳的图生视频模型,生成效果超越了Runway等模型。
SkyReels-A1的算法突破,助力AI演员的演技实现突破,告别“人机式”演戏。
当AI走出“恐怖谷”,不但能传递喜怒哀乐等主要情绪,还能更精准地表达出困惑、嫉妒、艳羡、焦虑等更深层的情绪,无疑会让AI短剧更具备感染力,内容制作和消费都更上一层楼。
有了影帝级演员,是不是一部剧的质量就有了保证呢?显然不是。
要拍出一部高质量AI短剧,创作者一个人要成为一支队伍,从剧本创作、镜头调度、剧情衔接、演员站位等,样样手到擒来。听起来很有挑战,昆仑万维打造的中国首个面向短剧生成的模型SkyReels-V1,就像一件“全能战衣”,可以赋予创作者强大的内容战力。具体来说:
首先,补齐了能力短板。
普通人缺少的专业影像能力,就被SkyReels-V1补齐了。基于好莱坞级的高质量影视数据训练而成,SkyReels-V1生成的每一帧画面,在构图、演员站位、相机角度等都具备电影级的质感,并带有14种工业化标准运镜模板,覆盖推拉摇移等专业拍摄技法,哪怕没有编导经验,普通人也可以借助模型中内置的模版,轻松完成空镜、特写、人物占位等画面的生成与衔接,拍出爽感十足的剧情。
其次,拆除了制作门槛。
SkyReels-V1支持文生视频、图生视频等多种模式,创作者只需要出创意,一些制作难度大的置景、服装等,可以全由SkyReels-V1一键生成。
我们让SkyReels生成了一个“丝绸朋克”风格的科幻世界,只需提示词We travel through a cyberpunk world that interweaves retro and future……一键AI生成的画面中,蒸汽竹械塔楼缠绕着蚕丝光缆,红灯笼映照着青瓷动力炉,还自带运镜,科幻大片也是叫咱拿捏了。
如果担心文字描述得不够清楚,或者希望AI参考具体图片来创作,可以直接把图片交给SkyReels-V1。
另外值得一提的是,SkyReels-V1有效解决了困扰创作者的成本难题。
此次SkyReels-V1模型的成本优势进一步优化,借助自研的推理优化框架,SkyReels-V1可以在4090计算硬件上只用75秒,完成512P分辨率的推理,还支持分布式多卡并行,采取fp8 quantization以及parameter-level offload,可以满足低显存用户级显卡运行需求,进一步降低了对创作者的硬件要求。
实测下来,生成画质1080p视频,常规配置的个人笔记本电脑就能轻松搞定。
目前,在同等分辨率下,SkyReels-V1的各项指标达到SOTA级别,可以支撑AI短剧的工业级生产。
总体来说,披上SkyReels-V1的AI战衣,普通人的内容战力得到全方位加强,能够打破AI短剧生产效率的桎梏,自由释放创意,叱咤短剧宇宙。
AI短剧走出表演的“恐怖谷”,打破生产效率的桎梏,SkyReels-V1成为普通UGC用户拥抱AI短剧的一条直达路。
更进一步,我们发现在智能晨曦中探索的创作者,既有充沛的机遇和需求,也面临大量的挑战、困难与麻烦。接入昆仑万维的AI开源生态,是距离最短、成本最低的选择。
可以用三个词,总结昆仑万维的开源特点:
1.真开源。与“仅放出模型,不开源参数”等伪开源不同,昆仑万维对底层模型、关键算法、工具包等,都进行了开源,切实普惠全球用户和开发者。目前SkyReels-V1模型与SkyReels-A1的技术paper已经在github开放。
2.最领先。昆仑万维的开源模型生态,覆盖多个模态、多种模型,除了此次开源的面向AI短剧生成的SkyReels-V1模型,早在2022年12月,ChatGPT和LLM大模型尚未爆火,「昆仑天工」AIGC全系列算法与模型,就宣布了开源。可以说,昆仑万维是目前国内AIGC领域最全面、先进的开源生态体系之一,降低了AIGC技术在各行各业的使用和学习门槛。
3.可持续。昆仑万维是国内第一个全身心投入AIGC开源社区的公司。从2022年底开启开源,至2023年10月,昆仑万维宣布开源百亿级大语言模型「天工」Skywork-13B系列,并配套开源了600GB、150B Tokens的超大高质量开源中文数据集。2024年开始,公司陆续开源了数字智能体全流程研发工具包AgentStudio、「天工大模型3.0」4000亿参数MoE超级模型、2千亿稀疏大模型Skywork-MoE、Skywork-o1-Open等模型。开源策略可预期,产品迭代有保障,才能成为AI开发者信任的伙伴,也让昆仑万维的开源生态持续壮大。
开源精神的迷人之处,在于发挥“众智”,这与昆仑万维的使命——“实现通用人工智能,让每个人更好地塑造和表达自我”是高度一致的。昆仑万维董事长兼CEO方汉曾公开表示,坚信开源是推动AIGC生态发展的土壤和重要力量。
当大量开发者和普通人,都能在昆仑万维的开源生态中,以低门槛甚至零门槛来获取最新AI技术,充分释放灵感与想象力,创新自然喷薄而出,内容也将丰富多元。最终体现在基于开源的创新产品,在体量规模与质量上,都远远超越了只能集中少数精英的闭源模式。同时,也推动了全球的技术平权和文化平权。
所以说,SkyReels-V1/SkyReels-V1-A1的开源,就像是一个超级英雄故事的开始,把强大的战衣交给创作者,普通人也可以创造奇迹。