别只盯着Sora,中国AI视频的实时交互已悄悄领先
刚刚过去的十一黄金周,大家一定没少刷到Sora2生成的视频,山姆·奥特曼到处给人送祝福,看得观众忍俊不禁。不过,等普通人真想用Sora做段自己的视频才发现,AI视频还是没有想象中一样简单。
我们看到的AI长视频,一般是由多个几秒长的短视频拼接而成的。也就是说,用户要先把完整创意拆成几个分镜,每一段剧情分别准备独立的图片和Prompt提示词描述,每一次生成都得碰运气,后期拼接时还容易跳帧、风格断裂,感觉不满意想调整,只能重写Prompt、重新生成。
这种创作模式,也被称为“抽卡”,就像手游里氪重金抽 SSR,花了时间、Token、算力和钱,还不一定拿到想要的结果,再加上海外平台高昂的订阅费,到底谁在说AI视频的制作门槛被Sora打下来了?
其实,AI视频技术的大众普及这一块儿,国内视频平台早就走在了前面。最近我们就注意到,百度9月25日发布的“蒸汽机”最新版本,有两个非常重要的升级:一是长视频流式生成的产品体验,二是模型支持实时交互。
前者可以用一张图、一段视频生成长视频突破5s、10s限制,并支持边做边改,创作AI视频不用再一次次“抽卡”赌运气,可以在预览中实时调整;后者则拓展了AI视频的边界,比如直播数字人这类需要实时推理会话的长视频,类sora模型还无法做到。
可以发现,在AI大众化这件事上,deepseek、百度蒸汽机这样的国内科技企业,是真的闷声干大事。而这,也是中国AI的本色之一。或许比起sora,国内视频平台正在终结AI视频的抽卡魔咒,才是更值得大家关注的AI大事件。
手游圈有一句话,玄不救非,氪能改命。指的是想抽到一张满意的角色,要么靠玄学碰运气,要么靠氪金砸钱。现阶段的大多数AI视频工具,就是这么工作的。
常规的AI长视频生成流程,采用首尾帧续写技术,或者简单续写能力,虽然一次生成的视频时长更长了,但前后频缺乏连贯性,调整前后逻辑、对齐音画等,比传统拍摄后期还累人;画质和细节也容易不稳定,比如人物一活动,肢体和空间的关系就不符合物理规律了。想要调整,就得重新上传图片和“抽卡”,把流程再来一遍,而且花钱不讨好,反复抽卡、多次生成,需要消耗大量计算资源,最终成本都要由用户买单。
对于创作者和普通人来说,这样的AI长视频能力是无法实现创作自由的,大多尝鲜之后就弃之不用了。
为什么AI无法一次生成高质量的长视频,而被迫陷入抽卡魔咒呢?行业普遍陷入了技术瓶颈:
瓶颈一,模型记不住,也就是长时序连贯性建模难题。
传统的扩散模型,是一种固定窗口的生成模式,对长视频生成非常不友好,一方面窗口大小和生成成本是指数级关系,另外一方面通过简单反复续写,会存在较为严重的全局一致性和连续性问题。生成时长超过10秒,帧间累积误差就会指数级增长,就像一个记性不好的人,做事做到第十秒,基本把前面干过什么忘光了,所以长视频越做越乱,前后内容不一致。
有的平台为了缓解这个问题,支持用户手动上传关键帧,这就意味着,30秒视频得传6组,操作复杂度直接翻了好几倍,而且镜头切换可能不自然,并没能发挥出AIGC提质增效的效果。
瓶颈二,模型听不懂、算不快,也就是实时交互受限。
在互动视频、直播等场景中,对视频的持续时长与实时生成能力提出了更高要求。但传统视频生成,只能靠抽卡和调整提示词,来不断试错,用户无法在生成过程中就进行修改和微调,是因为Transformer架构的二次计算复杂度很高,在生成长视频时要实时互动,一是对GPU显存与计算效率提出更高要求,需要软硬件协同优化来提升推理效率。还有成本考量,计算开销随生成时长呈平方级增长,为了控制成本,模厂只能限制时长,还必须等全部算完才能输出结果。
上述技术瓶颈,导致AI长视频不连贯、改不了、成本高,因此,目前这类短视频生成技术主要应用于工具层面,如视频片段与素材制作,这显然无法满足C段和B端的复杂创作需求。
百度“蒸汽机”10.15版本的核心突破,就是把长视频变成流式生成、实时交互,整个过程中,用户可以边浏览边生成,支持在帧数间改写、续写,随时打断并修改提示词,就能实时生成想要的画面,从而打破了传统视频生成的“抽卡”魔咒。
面对行业普遍的10秒局限,以及用户反复抽卡的无力,百度蒸汽机靠四大技术突破,从根源上破解了长视频生成的效率、质量与成本难题,终结“抽卡”模式。
突破一:基础架构改造,解决长视频生成难题,一张图一段文字极简生成。
传统模型生成超10秒视频就会片段断裂,还得补关键帧。百度蒸汽机引入自回归扩散模型,搭建流式滑窗架构,通过阶梯独立噪声构造,为每一帧匹配精准噪声级别,配合动态缓冲区管理,同步处理模糊草图、半完成帧及高精度画面等多状态画面,实现“边生成边调整”的实时交互生成流程。
我们上传了一张骑在黑龙背上的视频,自动生成12秒视频,全程无需补充任何素材,而且生成过程中,还可以随时选择继续生成或修改提示词。
突破二:训推偏差消除,解决累积误差,告别 “越生越崩” 的质量衰减。
AI生成的视频前5秒正常,后面人物空间关系就扭曲变形了,这种情况经常出现,本质是传统滑窗方法的误差累积问题,导致生成的视频质量严重下降。
但我们用百度蒸汽机生成了一个长镜头的双人互动,在长达20秒的时间里,两个人物都保持了一致性,即使是在近景互动时也符合物理逻辑。
原来,百度蒸汽机通过历史帧扰动增强技术,在训练时故意加入帧误差,让模型具备自我纠错能力,变得更加鲁棒,缓解自回归模型的累积误差问题。
突破三,一致性优化,让长视频像接力赛一样丝滑。
行业普遍采用的片段拼接技术,经常出现走路跳步、音画脱节等情况,比如人物说话时唇形与声音对不上。百度蒸汽机采用全局规划与局部参考相结合的优化方法,解决长视频连续性与一致性问题。其中,引入锚点帧引导,保障全局记忆,引入了key frame建立全局注意力锚点,保证模型的长期记忆能力,引入历史参考帧,作为上下文信息,使得模型具备短期记忆能力,保障连续生成。前后过渡像传递接力棒一样流畅自然,多人对话等场景的AI视频一次生成质量更高。
突破四:实时流式计算,实现边生成边修改的创作自由。
以前生成3分钟视频得等40分钟,而且生成后无法修改,一点就得重算。百度蒸汽机基于自回归扩散架构,突破高压缩比生成技术,大幅提升扩散模型流式推理性能,保障效果和效率的极致平衡,满足实时交互的推理需求。
比如我们用V2V模式,上传一段赛车视频,百度蒸汽机能够在几分钟之内,就将视频拓展到10秒以上。如果想改写结局,可以选择续改,选中关键阶段的帧,直接输入其他结果的提示词,比如“银车加速超过黄车”或“黄车加速超过银车”,就能生成新的结局,轻松搞定不同剧情。
也就是说长视频生成过程从黑箱变成了流式体验,模型推理出多少,用户就能实时预览多少,不需要等待全部生成完成。而且百度蒸汽机升级了窗口注意力机制,将计算复杂度降为线性,结合模型蒸馏技术,大幅提升计算效率,降低推理耗时,所以整个生成过程仅用时几分钟。整个制作过程既可控,又省力。
百度蒸汽机的四大突破,用技术把AI视频的创作模式,从靠运气抽卡变成了按需创作。这会推动行业发生至少两个变化:
一是创作门槛进一步降低。由于AI长视频的生成质量和效率得到提高,不再需要用户上传多张图和prompt,不再需要费心描述和准备关键帧,一次生成高可用,长视频生成真的走向了人人可用的简单时代。
二是应用场景进一步延伸。传统长视频生成技术,难以承载复杂的创作需求,无法满足数字人这类实时交互长视频的需求。百度蒸汽机全新的技术架构实现长视频流式生成体验,支持实时互动,可以拓展出AI导购、AI老师、AI陪伴等沉浸式数字人场景。支持开放世界的生成,比如游戏地图、旅游景点体验、宇宙空间等,都可以任意创造,比如家长可以用一张长城或宇宙的图片,为孩子生成虚拟长城或虚拟宇宙,为教育、旅游、游戏打开新可能。
某个噱头或爆款玩法,或许能在短时间内带火AI视频的关注度,但一时热度终会在门槛暴露后退潮。唯有扎扎实实的底层技术突破,才能为AI视频生成的大众化普及铺平道路,真正降低使用门槛、拓展使用边界,承接住不断涌入的创作者和新用户。
Sora2的科幻短片刷爆社交平台时,不少人又开始感慨,“AI视频创作的天花板在海外”。但真实体验过的创作者恐怕都会认同,这些海外AI视频创作与普通人仍有距离。百度蒸汽机为代表的国内视频平台,更加普通人友好。
一方面,国内平台更早跳出了炫技式研发,不像sora这样“憋个大招”,以更快的技术迭代速度,贴实用户需求。
拿百度蒸汽机来说,迭代速度堪称行业标杆,可以说是“月月有突破”。今年3月首发即实现高精度图生视频,5月登顶VBench-I2V权威榜单,画质达专业影视级;7月推出全球首个中文音视频一体化模型,8月实现多人对话生成,9月发布“通用AI长视频生成”功能……
这种应用驱动研发的路径,背后是搜索、百家号等场景的真实需求直接反推模型升级,让百度蒸汽机的技术突破始终贴合用户痛点,解决普通人的使用难题。
此外,AI视频生成的大规模、产业级应用,国内视频平台也别有优势。
相比不懂中文语境的Sora、sunway等,百度蒸汽机等国内模型凭借亿级中文多模态数据训练,不仅中文唇形和语音能精准同步,还能生成方言,让创作者的内容更容易打开中文市场。
国内平台也更懂产业落地AI的成本难题,比如百度蒸汽机坚持技术普惠,依托百度智能云“百舸”平台与昆仑芯片,结合模型参数压缩、算力动态调度等技术,将推理效率提升3倍,刊例价较同类产品低至七成,并采用“按量后付+资源包”灵活计费模式,不让用户白花冤枉钱。相较海外平台的服务费与订阅费,大幅降低了产业级使用成本,也为AI视频生成的规模落地拆除了门槛。
从抽卡试错到按需创作,百度蒸汽机的技术突破不仅改变了AI视频的创作逻辑,更展示了与海外平台不同的技术产业化、技术普惠化之路。
正如大语言模型、对话式AI的普及历程一样,AI长视频的全民时代,将由国内平台开启。