实测千问最新AI视频、AI生图,Qwen“最强”二字落地

作者 | 叶二
编辑 | 魏晓
半个月前,阿里全新集团战略项目千问,正式对外公测。在官方的介绍中,在千问上,学习工作可以一站式搞定。而底气,则正是基于阿里最强模型、全球开源第一的模型 Qwen 。
AI助手的能力,来自于模型基座。道理是这个道理,只是Qwen虽说早在B端展现出强大的技术实力,征服了一众海内外的开发者,但此前在面向普通消费者的C端,并没有太多建树。
这也使得千问的强大,总归是欠缺了直观感知。
而现在,完全不一样了。
就在今天,千问进行了更新,一口气接入AI生图Qwen-Image最新模型和AI视频模型Wan2.5等,这都是目前Qwen发布的面向AIGC创作领域的最新模型,尤其是前者,更是当下全球最强的图像开源模型,并且更夸张的是,免费开放。
是的,没看错,免费。

与此同时,随着这一系列多模态能力,以及文生图、图生视频等生成式AI功能在千问上的集中释放,Qwen的底层实力也第一次真正“可视化”地呈现在大众面前。
AI蓝媒汇第一时间也进行了实测,体验下来,只想说两句话。
一句是,千问果然没唬人,Qwen不愧是 “最强开源大模型”,一出手就知有没有。另一句是,这么好的产品,阿里为什么不早点拿出来给C端用。
“所想即所得”的创意世界
先看下千问此次加入的Wan2.5 AI生视频能力,要知道,视频作为信息密度最高、表现力最强的媒介之一,是模型能力最直观的展示。
AI蓝媒汇通过千问搭载的Wan2.5 AI生视频,以一张静态美女图为主体,让镜头围绕其360度旋转,然后空中飘下彩带,定格,并选择5S视频(另一个选项是10S)、设置好清晰度,打开了智能配音,开启生成。
在差不多3分钟左右的时间,这样一个视频便做好了。
看看效果。
视频不仅完整继承了原始图像中女孩的外貌特征、服装细节,并且AI进一步还原了女孩的整个面部,展现了Wan2.5模型的智能补全与重建能力。
原图中,女孩呈现“一睁眼、一闭眼”的非对称状态;而AI在生成动态视频时,自动推演并补全了闭合眼睑的自然睁开过程,使面部表情过渡流畅、五官比例协调,整体观感极为自然,毫无违和感。
同时模型具备较强的语义理解和场景推理能力,生成的场景,与AI蓝媒汇想要达成的效果基本一致。在动作方面,其中,彩带从天而降,飘落轨迹也非常合理,符合现实物理规律。
更大的亮点还在于,Wan2.5可以在生成时选择智能配音,可以自动匹配符合场景情绪的语音或音效,并实现音画同步——口型、表情、动作与声音节奏相互呼应。
本视频中便匹配了一个节奏前期快速,然后中期转折变得舒缓的音效,极大提升了内容的沉浸感与传播力。
这种是贴近现实风的,现在来试试“幻想风格”的。
将一张小狗的图,变成一个巫师小狗的视频,骑着魔杖,飞行在霍格沃茨的城堡中,生成条件,5S,未打开智能配音。
效果还是很像那么回事。一个原本还在花丛中的小狗,摇身一变就成为了巫师小狗,画面过渡非常自然,场景切换也比较丝滑。值得注意的是,画面中的巫师斗篷,一直在随风飘动,非常真实,显示出高速飞行下的速度感。
再搞点有意思的。
千问AI视频创作,还上线了AI跳舞功能的迭代版“全民唱跳2.0”,还是这个狗狗,我们试着让它对口型,唱一下哈基米之歌。都知道,对口型AI创作原本为人类语音设计,对动物嘴型的适配属于“跨域迁移”,难度相对比较大。
从千问生成的这段视频来看,整体看下来,狗狗对口型的准确度,达到了90%左右,嘴型、眼睛、乃至舌头,都随着“发声”,实现了相应匹配,达到了 “能玩、有趣”的水平。
再换个历史人物,让莎士比亚穿越到现在,跳一首欢快的舞蹈。
好了,现在再试试,一句话生成视频,看看效果。
“夜晚的未来都市,全息广告牌闪烁,一只机械猫眨眼,‘欢迎来到赛博天津’文字滚动。虚拟偶像在跳舞。”
描述还是很宽泛,缺乏明显参照图等关键信息,不过Wan2.5还是尽可能地构建出一个具有辨识度的赛博朋克城市片段。细节方面,其中机械猫以银色金属质感呈现,眼部采用发光矩阵设计,具备自然眨眼动画,赋予角色生命力。核心文字也非常清晰,从右向左滚动,节奏稳定。画面光影层次丰富,同时搭配科幻感BGM,沉浸感强。
整体测下来,千问AI生视频的能力,还是挺出乎人意料的。
市场普遍都知道,过去在AI视频生成这个赛道上,阿里产品相对比较低调,名声并不突出,但没想到,默默发育,能力已经涌现到如此程度了,生成质量和适配性均达到国际顶尖水平。
超高一致性的生产力工具
视频让人“所想即所得”之外,再来看看“千问”此次搭载的AI生图模型实战效果。
公开资料显示,Qwen-Image在Huggingface趋势榜登顶数周,开源全球第一 ,在AI arena竞技场,排名仅次于闭源模型nano banana、seedream 4.0,是全球最强图像开源模型。
而据说此次千问搭载的是Qwen-Image最新模型,是Qwen-Image 2511,是Qwen-Image给千问定制的特供满血版本。
那来看看,全球最强图像开源模型到底是怎么个全球最强?特供满血版,又是怎样的火力全开?
以用户合影需求为例。

AI蓝媒汇以上文中的小狗图,以及一张人物图,做了测试,“把狗狗放到人物图中”,Qwen-Image 2511直接生成了一张狗狗坐在人物怀里的图,保持了高度一致性。无论是人物,还是动物,都保持了高度一致:狗狗毛色和体型在全新图片中保持一致,确保了主体形象的统一。人物也同样如此。

并且,AI很好的理解了用户的意图,将狗狗与人物的位置关系,处理的非常自然和谐。
换个姿势,“让人物站着抱着小狗”。

这个指令,相当于无论是人物,还是小狗,其姿态都需要发生变化。但生成出来的图片,人物姿态转换流畅,抱狗的肢体动作也符合人体工学,并且一如既往,保持了超高的人物、动物一致性。
还可以,再加个索尼FL效果滤镜,一下子质感就出来了。

这种超高的一致性,也直接让千问更是能成为一个提升生产力的工具。
AI蓝媒汇先让AI为办公室放着的一个苏打饼干包装添加蓝媒汇主题英文标识logo,logo的字体风格、印刷质感与饼干包装的材质、色调高度贴合,无明显的违和感。

后续基于该包装图生成双十二圣诞主题促销海报,AI将饼干主体与圣诞元素(圣诞树、雪花、礼盒)融合自然,中文促销信息排版清晰,整体视觉风格契合食品类海报的营销调性,效果达标。

从生成效果来看,Qwen-Image 2511具备非常强的文字处理能力,与排版理解能力。这意味着它能“画图”,还能“做设计”。
比如一张模特图,与一张商品图,实现“换装”。


又或者,一句话生成一张商品促销海报。


脑洞再大点,一张圣诞主题的像素苹果海报。

等等,可以清楚看出,此次千问上线的Qwen-Image最新模型不仅仅是一个帮助用户将创意转化为现实的工具,它同样也能直接应用于商业环境中,展现出其在品牌视觉延展与电商内容生成场景中的落地价值。
对了,最最最重要的一点,这些功能目前都免费开放,无论是文生图,还是图生图,甚至是过去在修图软件上需要付费的包括P图精修、多元风格滤镜的一应功能,全部免费。主打就是一个全面开放,免费开放,让人人可及、即想即用。
整体来看,此次“千问”接入了Wan2.5和Qwen-Image 2511等最新大模型,从原本的ChatBot直接跃升至全栈式AIGC创意助手。
Qwen的强大,也直观呈现在大众面前,不再只是工程师口中的“最强开源大模型”,而是化身为普通人触手可及的创意伙伴——只需一句自然语言,就精准还原生活场景、生成高一致性角色,并赋予画面以流畅动作与真实声效,真正实现了“想得到,就看得见、听得真、用得上”。
而对于“千问”本身而言,这也直接意味着,其将Qwen大模型的底层实力,变成了普通人也能轻松驾驭的创造力、生产力。
基于最强开源大模型Qwen打造的千问,果然没唬人。相信接下来,Qwen的更多先进强大的能力,还将持续封装进入千问。一个万能的AI助手,越来越近了。
(文中图片、视频,均为千问AI生成)
Lanmeih/今日话题
你用过AI生图、生视频吗?



AI蓝媒汇官方账号




