图像生成AI新王诞生?一根香蕉如何改变世界
P图这门学问,不存在了,AI这次是真的要干掉Photoshop。
前几天,一个名叫Nano Banana的神秘新模型,出现在了国外平台LMArena上,LMArena就是业内有名的AI大模型竞技场,用户在这里输入提示词,会有数个不同的模型生成结果,让你评价谁好、谁垃圾,评完之后LMArena才会告诉你,答案分别属于哪个大模型。
结果是,短短几天之内,用户们就在盲选评价中,给Nano Banana打出了1360的高分,位列图像编辑AI的第一名,力压GPT、千问等知名大模型,用户们的心情,大概是这样的。
所以,Nano Banana到底有多猛?我们普通人又能拿它做什么?
01 Nano Banana 一致性的王
用这个大模型执行图像编辑任务时,用户最直观的感受就是,一致性无敌。
AI的一个常见任务,以图生图,给大模型们喂同样的参考,输入一样的提示词,让它们更换图中的背景,或者人物动作、服装。目前常用的几个老牌选手,在生成时都有很大的问题,新图明显无法与参考图中的人物保持一致,要么变了脸型,要么变了肤色或者胖瘦,姿势和动作也有细微变化。因为这种一致性问题,你很难做到控制变量,想变动一点,其余的部分全变了,根本没法用。
就比方说,用自然语言描述,要求AI给下面这张图替换背景,“换到室外的泳池边,整体构图和人物姿势动作形象都保持不变,图片的风格维持现状。”
GPT生成的结果是这样的,照片的风格大变,人物样貌有很大变化,手里夹的烟也消失了,甚至还多长了根手指,基本上可以判定为一眼AI。
这个则是豆包的生成结果,看得出来,它在努力保持人物的一致性,尽量做到PS抠图的效果,但豆包生成的背景有点太糊了,人物像站在一面油画前。
再看我们的主角Nano Banana,不仅把人物原样照搬了下来,细节无一丢失,背景的色彩和清晰度也比较合适,可以说是非常接近老师傅手抠的结果了,而且它非常聪明地添加了,连原图都没有的烟雾效果,显然Nano Banana是觉得,四个烟民站在这,空气不可能清新,烟雾缭绕才合理。
一个实战例子可能说明不了什么,咱们再来看几个。这是一位国外网友用Nano Banana编辑的照片,他给出的指令是,“把眼镜替换成黑色太阳镜,然后拿一杯健康饮料”,Nano Banana给出了右边的图,不仅把脸型、表情、肤色都保留了下来,墙壁上小鼓包也还在,它还认真还原了墨镜的半透明效果,以及镜片上的反光,非常自然。
作为对比,完全一样的参考和Prompt输入GPT,结果是这样的,莫名其妙给人物加了一层柔光滤镜 ,还疯狂磨皮,有种美颜拉到最大的感觉,而且人像的边缘有条显眼的黑线,像是抠出来放到墙壁前的样子。
豆包的结果好一些,人物是还原了,但眼镜有点假,很明显没有跟原来的场景、风格保持一致,融合度差点意思。
换句话说,Nano Banana 就可以做到,只在你想改的地方精准下刀,新生成的图像中,人物还能保持原来的相貌体型,其它物品保持不变,并且整体画质和风格跟原图同步,就好像找了PS高手帮你。
这么复杂的操作,用户却只需要用简单的自然语言下令,等于学会了打字P图,想给照片换个背景,抹掉什么闲杂人等,或者把某个人加进来,就一句话的事情而已,完全用不着费力学什么蒙版、套索。
于是,一大群人跑去LMArena上疯玩Nano Banana,开启了用嘴P图的生涯,这位网友要求Nano Banana,把自己以前在莫斯科拍的新年纪念照,背景换成纽约,年份换成2025,成品效果几乎完美。
也有人叫Nano Banana给自己换装,从沙滩裤换到西装,生成结果很还原现实中的体型,衣服上的光影也得到了保留,还生成了很多褶皱,足以以假乱真。
给照片换头也是毫无压力,尺寸和神情恰到好处,跟整体风格融得也比较好。
用Nano Banana,你甚至可以看看你家猫咪脱光衣服之后的样子。
接触AI比较多的朋友一定知道,生成一致性算是老大难问题了,模型看参考图跟我们人不一样,它要同时关注角色、背景、风格等多个元素,很容易在这个过程中遗失关键特征,它也难以区分角色的身份特征和图像的风格,再加上AI每次生成都是独立的,每次都存在随机,很难做到一致。对于高手来说,可以通过输入极其复杂的Prompt,来部分解决一致性问题,但这种魔法咒语的学习难度,可能并不比学习PS要低,对普通人来说还是有门槛的。
如果同样输入普通人能掌握的大白话,Nano Banana的表现明显比其它主流大模型高了几个段位,显然是在这些技术难题上取得了突破,至于具体采用什么逻辑,就不清楚了。
现在已经知道的是,Nano Banana的身世。刚开始的时候Nano Banana神秘兮兮的,也不知道是谁家搞出来的,后面用户反响不错,谷歌就跳出来认领了,承认了它是测试中的Gemini-2.5的绘图大模型。
现在谷歌已经开始全面推送,可以直接在官网上使用,不必再跑到LMArena上疯狂摇号,这进一步推高了Nano Banana的热度。
02 有常识的AI
随着更多用户能够稳定地调用Nano Banana,大家很快发现,这玩意的恐怖之处不仅仅在一致性,它在保持一致的同时还有强大的想象力。
比如说,变表情,你让AI改变某张照片中的人物的表情,大多数AI没有办法正确脑补这张脸的变化,会直接把整个脸都扭曲,Nano Banana就可以分析你的面部特征,生成更加自然的结果,跟真人照片放在一起,都难以分辨到底谁才是AI。
来做个测试,请看下图中的王の笑容,找出哪个是Nano Banana修改后的假王。
公布答案,1号和4号为编辑表情后的结果,有多少朋友猜对?
更牛的是,Nano Banana还有凭借合理想象多角度生成图像的能力,你给它喂一张正脸图,要求它把人物的脸转过来,Nano Banana可以在没有其它参考的情况下,凭借轮廓合理想象侧脸的模样,并且看上去符合常识。
当然,也可以反过来,用侧脸去生成正脸,也是丝毫没有突兀感。
Nano Banana还能根据固定角度的参考,想象变换机位之后的新角度。比如给它一张平视图,要求它以此为基础生成俯视图、仰视图,Nano Banana不仅可以识别人物和物体特征,用靠谱的空间想象力,脑补出俯视的样子,对于一些平视图中没有完全露出的物件,它也可以用常识进行补全,比如我们前面说的聚众抽烟图,参考图里只露出一盆花,它知道在俯视想象中给花下面补个茶几,以让花盆达到正确的高度,它甚至还分析了人物在干嘛,在添加物件的时候搁了几个烟灰缸。
非要挑的话,在不起眼的角落里,Nano Banana还是犯了个经典的边界不清错误,证明自己依然是个AI,不然大家都要害怕智械觉醒了。
按照谷歌的说法,Nano Banana在这方面强,是因为它并非一个单纯的图像编辑模型,而是融合了Gemini 的世界知识,所以它有常识和强大的逻辑推理能力,能够理解文本、图像所代表的含义, 也懂得现实的状况和规则,得到的结果自然更符合用户的预期。
这种基于现实逻辑的想象,是传统修图软件无论如何都做不到的,也是很多AI的弱点。
再加上超强的一致性,最终得到的结果就是,开局一张图,之后随心所欲输出自己想要的画面,想保留什么元素,想改变什么,全由你来决定。
用老外的话来说,Google just killed Photoshop.
03 全民创作,启动!
当网友们见识到了Nano Banana的实力,就开始疯玩了。
首先整活党得到了极大的加强,各种以假乱真的Nano Banana 恶搞图满天飞。现在X上面人均傍大腕,跟将军亲切拥抱的,跟登子握手合影的,还有夜访普京的,个个背景过硬。
作为爱恨两极分化的总统,川普自然也逃不过恶搞的大手,已经被Nano Banana送去主演《芭比》了,你别说,粉粉嫩嫩的还挺合适他。
各个科技巨头的头头们,也集体被搞抽象,让奥特曼去表演体操,让马斯克戴金链子、穿一身西海岸该溜子装,让桑德尔这位印裔CEO,把谷歌办公室搬到破旧的印度农村房。
明星们现在应该也在瑟瑟发抖,毕竟霉霉刚发的订婚照,已经被Nano Banana给P成了瑟曦同款短发。
跟巴萨和可乐斗了半辈子的C罗,也在Nano Banana和网友的帮助下,实现了世纪大和解。
还有好奇心爆表的车手,尝试利用Nano Banana脱掉HKdoll姐姐的口罩,看完生成结果之后,应该是心满意足地去拿卫生纸了。
好玩是一方面,那些想把AI当成生产力的人,也发现了新大陆。
Nano Banana可以把你提供的素材图,按照要求跟人物搭配成图,穿什么衣服,拿什么手机,坐什么汽车,摆什么姿势,都随你定,它熔炼素材还熔得特好,身材不走样,比例不失真,并且能搞出高级感。
过去也有一些大模型推出类似的AI换装、AI穿搭功能,但Nano Banana能够使用的素材数量要多得多,在官方演示中就有13个不同的素材被安排进去,X上还有用户反馈,如果你在一张图里放几个素材,可以塞更多元素,他最高用了18个。
而且,对于一些语言难以仔细描述的动作、姿势,你也可以通过上传示意图来跟Nano Banana解释,画成火柴人那么抽象,它都照样能理解。
这不仅省去了修图的功夫,还省掉了找道具拍摄的成本,对于做电商、搞广告设计来说堪称神器,花小钱买点Token,十几秒就能做完一天的工作。
另一个用法是突破次元壁,你可以把各种手稿、动漫乃至真人喂给Nano Banana,让它帮你做成手办的样子。
既有栩栩如生的动态和表情,又还原了塑料和漆面特殊的光泽、质感,确实看起来像手办。
这个用法已经成了小红书的流量密码,会引来一堆人在评论区求帮忙做同款,轻松起号。
对于搞室内设计或者想装修的人,还有卖家具的人,Nano Banana也是绝对的神器,谷歌基于这个大模型定制了一个官方小工具,让Nano Banana拿毛坯照片生成装修效果图,拿空房生成放满家具的样子。
你甚至都不用描述,小工具允许你直接把家具素材图,拖到指定位置,就可以生成对应的效果,省下了想提示词的功夫。
不仅如此,高手们还捣鼓出了无数的邪修玩法,比如说你可以给一张背景虚化掉的照片中,随便画一圈,把圈里面模糊的人或者物提取出来,要求Nano Banana进行合理想象,生成这个人物的高清大图,感觉刑警队会很爱用。
你还可以利用Nano Banana的世界知识,把卫星图转换为风景图,用户只需要画个箭头号,告诉它这是摄影师的视角,Nano Banana就会开始推理这是哪,你在什么位置,然后生成这里所能看到的画面,一些平时需要付费购买的城市风景照,就可以免费获取了。再搭配上其它的图生视频AI模型,让画面动起来,那些高价的空镜素材,没花一分钱就到手了。
04 真假难辨
可以说,Nano Banana的诞生,代表着图像编辑AI达到了一个新的高度,已经可以有效解决人类“手跟不上脑”的问题,你想象,然后说出来,就可以获得图像。
对于普通人来说,修图做图,不再是一门高深的技术,人人都可以低成本展示自己的灵感,可能在今后的时代,创意才是最贵的。
当然,硬币也有另外一面,但AI生成的水平,逐渐逼近“以假乱真”,它被用来作恶的能力也越强。
在Nano Banana尚未出现的时候,各种AI图就已经能够骗到识别能力不强的人,骗过一些检测系统。有人拿AI做出物品损坏的样子骗商家赔款,天天薅羊毛,有人用AI生成门头来掩盖幽灵外卖店,假装自己很正规。
更不要说,每天还有各种各样的AI假新闻图在网上到处飞,疯狂制造谣言……
这种低水平的AI造假,目前我们都无法完全拦截,也不是所有人都能识破,当Nano Banana等新一代AI普及,恐怕情况会变得更加严重。
搞传销的,再也犯不着去4S蹭玛莎拉蒂,或者砸钱请奥巴马来合影,他们坐在电脑前就可以随便伪造出跟大佬握手的图,骗你入局。卖假货的,也犯不着请什么演员来做违背祖宗的决定,随便AI生成一下,便可以让明星大腕一脸真诚地手持自己的产品,免费做代言。
又或者说,诈骗犯只要搞到一张你的照片,就能制造出无数你挨打被虐的图,让你爹妈以为你被绑到缅北去了,然后掏空家底给你交赎金。
几十年前,整个社会都是以 "眼见为实" 的认知体系为基础,照片就是铁证,视频就是定论,因为那时候的人们知道,这些东西是难以修改和伪造的。PS的出现,第一次动摇了这个认知体系,因为伪造成本变得太低,稍微懂点技术的人都可以搞,但凡看到照片,我们脑子里都得冒出一句:“是原图吗?”
现如今,门槛更低、能力更强的图片编辑AI,又准备革掉PS的命,以后会发生什么呢?
大脑的想象力,是放飞了,但我们的眼睛,好像也不值得信任。