实测千问新模型,阿里做了个最懂中文的AI画师。

  提到这两年的AI生图,大家最大的体感估计就是变化。最开始画手指都会劈叉,但现在很多AI生成的图片已经真假难辨了。

  尽管图像能力越来越逆天,但在有些细节上AI依然会穿帮。比如文字,特别是中文。

  对于AI生图模型来说,如果汉字渲染扭曲成鬼画符、二次编辑时也不可控,本来好的地方也被改坏了,这样的 AI 离真正的生产力工具确实还差了口气。

  不过,就在 2 月 10 日,阿里巴巴推出了千问大模型系列的最新图像生成大模型,Qwen-Image-2.0。作为千问大模型最新的生图底座,它不仅能直出 2K 高清图、支持 1K Token 的超长指令,还有个最关键的特点是,它懂中文

  在权威的 AI Arena 测评中,Qwen-Image-2.0在文生图领域跻身 Top 3,图生图领域位列 Top 2,看上去跟谷歌 Nano Banana Pro 等国际最强模型也能掰掰手腕。

500

  那么,这个新模型到底是真能打,还是 PPT 战神?

  为了验证它的能力,我们直接从汉字生成、复杂排版、高清修图到逻辑连贯性四个维度进行深度测评,带大家一探究竟。

  先从这次主打的汉字生成上说起,在以往的 AI 生图模型中,生成英文单词尚且经常拼写错误,更遑论结构复杂、笔画繁多的汉字。

  我们首先从基本的书法撰写上开始,要求不同的模型为我们展示楷书书法,提示词如下:

  长条宣纸竖直在深棕色古朴桌子上,从上到下写着:“凌空踏虚,难成干秋之业”,左侧从上到下写:“求真务实,方能善作善成”,左下是一个红色印章。旁边放着砚台和毛笔,低光照,低曝光,冷色调,字体为楷体书法,字体大小保持一致,章法严谨。

500

  从图片效果上来看, Qwen-Image-2.0 模型首先对纸张的质感,桌面的细节描绘都非常逼真,文字上也没有出现贴图感,与图像融合的不错,印章的凹凸效果也很明显。

  对比Nano Banana Pro,后者在书法的墨色质感上更胜一筹,但把千字写成了干,提示词中要求的字体一致也没有保持住,而是把第二句话当成了书法正文后的落款。

500

  热身结束,我们继续测试文字生成的重头戏,要求 Qwen-Image-2.0 模型渲染王羲之的《兰亭集序》,即从“永和九年”到“亦将有感于斯文”的324字全文。

  与此同时,我们也生成了两幅 Nano Banana Pro 的版本进行对比。

500

  先看谷歌 Gemini 的 Nano Banana Pro,生成文本虽然相对清晰,但贴图感比较重;在第三方平台调用Nano Banana Pro 的 API 生成时,发现画面十分精美,但汉字的细节已经完全崩溃了。

500

  实际上,据开发团队透露,在千问 Image-1.0 时代他们团队就曾尝试过这一挑战,但以失败告终。而在 Qwen-Image-2.0 的测试中,结果却非常令人震惊。

  模型不仅将全文基本正确地渲染出来,由于字体足够清晰,一些字上你也能够看出王羲之书法的影子,反观 Nano Banana Pro 则是用了字库的正楷字体。

500

  在字体生成和长文本上表现不错,那如果把文本换成其他文字呢,我们让模型尝试把绢本的红楼梦判词更换成不同人物及书体,来测试模型的文本编辑能力。

  比如这是用 Qwen-Image-2.0 生成的林黛玉判词图,采用行楷字体,看起来非常雅致。

500

  而当我让 Qwen-Image-2.0 把这张图中人物及判词改成李逵时,模型自动选择了更贴近人物性格的粗体正楷,表情管理保留了林黛玉的神态。

500

  除了字体上的优秀表现,Qwen-Image-2.0 这次还主打了 “多” 的概念——字多、话多、提示词多。

  原理很简单,生成一张好看的风景图容易,但要生成一张带数据、带逻辑、排版复杂的商业 PPT,曾是 AI 的噩梦。

  为了测试 Qwen-Image-2.0 能否胜任复杂排版的商业 PPT需求,我们找了一段关于太空算力解决方案的综述,全部作为提示词输入进去,提示词长达 1400 个字,要求左中右三栏布局,包含大量文字、绿色进度条、折线图、柱状图。

500

  从结果上看,虽然PPT无法直接分层编辑,但图中的进度条、折线图、柱状图,看起来都做的很精致。一些小字,放大后依然清晰锐利,没有丝毫虚化。这得益于模型对小物体和文字细节的极致刻画能力。

500

  此外,我们还发现 Qwen-Image-2.0 在排版和设计上也有自己的巧思。

  这是我们要求模型生成的12幅杭州美景水彩画海报,可以看到, Qwen-Image-2.0 对海报的标题专门做了光线处理,还增加了晕染效果,而在提示词中并没有要求这一点。

500

  说到现实景点, Qwen-Image-2.0 这次也主打2K高清影像,并能生成更贴近真实的。

  但这种高清能做到什么地步呢,我们测试了自然界复杂纹理,要求模型生成森林里的变色龙,以及触摸树叶的穿毛衣女孩。

500

  可以看到,对于变色龙鳞片,眼部细节,蕨类植物的细节,还有毛衣的毛绒感,人物手部的红润气色,模型都把握得非常地道。要不标注AI生成的话,确实很容易把它当成是真实的摄影作品。

  再比如,要求模型生成北方农村冬天下雪后的春节场景,结果也非常逼真,积雪、结冰河面、植物和墙体的结霜,不同物质的反光效果都有考虑到。

  另一个细节是,有在乡村生活过的人都知道,夯土墙体破损确实像图中一样,从墙角开始的。模型对世界知识的了解程度可见一斑。

500

  如果说单图是爆发力,那么多图一致性就是耐力。我们挑战了在一张图中渲染多个子场景的漫画。

  比如结合模型的世界知识和生图能力,制作相关的科普漫画。

  这里我选择的主题是康德《纯粹理性批判》中的四个经典二律背反命题,要求 Qwen-Image-2.0 面向幼儿制作哲学科普四格漫画。

500

  从风格和逻辑上来看,这些漫画都挑不出什么大毛病,而且文字继续保持了清晰稳定,每个格子的图像风格也完全统一。

  再比如,要求模型生成无间道电影的分镜草稿。同样提示词条件下,先看 Nano Banana Pro 的表现:

500

  很明显,Nano Banana Pro 保持了提示词要求的草稿风格,但文字细节上出现了多处崩溃。

  而 Qwen-Image-2.0 对草稿的理解似乎更匹配影视行业的需求,给出了更贴近视频呈现效果的图像,每个小图也更容易看到光线效果的呈现,连墨镜反光都能准确显现对面角色,画面细节相当惊艳。文字上极少出现细节崩溃的地方。

500

  就连连贯的故事脚本,现在也能通过AI一次性生成了,完成度还相当不错,这对于漫画家、电影分镜师来说实在是好事。

  看到这也许有观众要问了,我们只展示 Qwen-Image-2.0 和Nano Banana Pro 的案例,是不是不够客观呢?所以在最后一个案例中,我们还对模型的图像能力,逻辑,语义理解,排版对齐,以及小字的细节进行了一场综合大考验。

  提示词要求模型生成一张包含文生图、干支纪年、公历、农历、黄历、节假日、星期以及调休安排的春节日历,并要求在加班日期标记。

  由于这项测试不仅测试模型的字体能力,还对长文本能力提出了要求,要同时兼顾公历、农历、黄历还有节假日调休安排,文本密度过大,逐行列思考也会导致模型注意力耗尽,因此为了综合对比各家大模型的特点,我们还拉来了国内其他厂商的文生图大模型的不同版本,以及千问前代的 Qwen-image-2512 模型。

  结果显示,四种模型的风格和槽点都各不相同。很明显能看到,真正能够理解逻辑并基本完成生成的,只有 Qwen-Image-2.0 和 Nano Banana Pro (下图上方为 Nano Banana Pro 生成)。

500

  同样以前代模型对比的话,Qwen-image-2512 模型的汉字细节崩溃了(下图左),但另一家文生图大模型不仅文字细节崩坏,干支纪年错乱(2026丙午当成了2014甲午),还无法对齐准确的日期和星期。

  更新后的版本依然文字崩坏,还把丙午写成了两午。从这也能看出这次 Qwen-image-2.0 的进步有多大。

500

  不过,相比 Nano Banana Pro , Qwen-Image-2.0 在日历第三行也出现了明显的注意力衰竭,正月初七一栏开始发生错误。

  但 Nano Banana Pro 在例如初字上的部首细节已经产生崩坏,而 Qwen-Image-2.0 的字体细节上明显优于其他,只能说千问团队这波真没吹牛,的确下了很大功夫。

500

  那么问题来了,为啥千问 Qwen-Image-2.0 突然支棱起来了?

  我们咨询了 Qwen-Image-2.0 的开发团队,他们的技术负责人告诉我们,为了优化文字生成,他们在底层架构上做出了一些革新。

  首先,为什么以前的模型写字总会崩?技术专家告诉我们,核心难点在于 VAE(变分自编码器)的压缩机制。

  简单来说,VAE 本质上是一个压缩工具,这种压缩是有损的。在传统的 VAE 压缩过程中,图像中的文字、线条、边缘等密集的细节往往会被当做噪点而被模糊化。

  当 VAE 试图把压缩后的数据还原回图片时,模型记不清文字原来的具体结构,只能脑补,因此导致文字模糊、笔画丢失。

500

  而 Qwen-Image-2.0 在两个关键维度进行了升级,首先是提升 VAE 上限,团队重构了 VAE 算法,使其在处理高频信息时的重构能力大幅提升,确保文字的骨架在压缩与解压过程中不失真;其次是增强生成建模,优化了底层的 DiT(Diffusion Transformer)架构,让模型在生成阶段就具备更强的全局规划与细节刻画能力。

  这两者结合,才使得长文本的分析和小字也能在画面中清晰锐利。

  抛开文字能力,Qwen-Image-2.0的另一个亮点还在于生图与编辑二合一。

  目前市面上大多数AI的生图和编辑是分开的模型。这导致生图模型懂语义但不可控,编辑模型可控但不懂复杂的语义。所以你会看到,用文字指令让AI编辑生成的问题时,经常会有适得其反的效果,比如说减肥照,你让它减肥它反而把你变成良子了。

500

  Qwen-Image-2.0 团队在这里做出了一个大胆的技术决策:将生图和编辑合二为一,使用同一套权重。

  这意味着模型在进行图像编辑任务时,依然保留了生图时强大的语义理解能力。比如下图为相同提示词下 Qwen-Image-2.0 生成的减肥照。

500

  更离谱的是,尽管能力大幅增强,但 Qwen-Image-2.0 的实际模型尺寸(Size)相比一代(20B参数)反而更小了。

  更小的模型使得推理成本降低,方便端侧部署,而且带来了更快的生图速度,这也让 Qwen-Image-2.0 在应用上有了更高可能性:

  虽然这一版本也会更新在QwenChat里免费开放给大家用,但对于这样强而有力的模型,开源社区的需求也会非常大。毕竟如此精悍的体积,可以说是为个人显卡本地部署量身定做。

  如果未来能开放权重,配合开源社区生态,Qwen-Image 的影响力估计还会更上一层楼,毕竟现在 HuggingFace 上已经有了非常多的此前数款 Qwen-Image 相关模型的衍生模型,实火一点不为过。

500

  总体来看,虽然目前的 Qwen-Image-2.0 输出的依然是位图,距离可编辑矢量图还有距离,在极致的逻辑推理上相比谷歌也仍有空间。但在国内来说,它的前景可以说相当可观。

  在图像 AI 已经越来越真假难辨的时代,谁能更好地解决最后一公里的应用难题,比如文字、逻辑、编辑能力的进一步提高,谁就能在生产力的变革中执牛耳。

  Qwen-Image-2.0,无疑代表国产模型交出了一份高分答卷。

站务

全部专栏