在大模型发布新版本往往高举高打的当下,Google 的一款秘密模型低调地引爆了社交网络。
8 月中旬,一个名为 nano-banana 的模型在 LMArena 平台的「Battle」中被发现,尽管没有任何官方开发者明确声称其归属,但很快,出于惊人的效果获得了病毒式的关注。甚至大量用户只为能被分配到该模型,而不断地参与平台模型盲测,相关图片也在社交平台上广泛传播。
颠覆性的一致性(Consistency):在连续生成或编辑中保持人物身份的稳定。
自然语言驱动的编辑:用户仅通过对话式指令即可实现高精度图像修改,无需复杂的专业工具。
闪电速度:图像生成与编辑响应时间通常在 1-2 秒内,提供了接近实时的交互体验。
我们也实测了一番,结果有惊艳,也有翻车,但确实在一致性上做到了断层领先的水平。
模型实测:能帮我实现 Labubu 自由,还会做计算题?
一打开模型,我们就向 AI 下达了第一个指令:给我来七个 Labubu,直接实现 " 手办自由 "。
让 AI 学会准确数数,依然是个问题。另外,由于我们最初的 prompt 里提到了 " 正版 ",AI 没能输出结果,修改措辞后才完成了生成。
接下来,我们又尝试了多张图片融合,据官方介绍能够保持人物的一致性,目前最多可支持三张图片合成,我们尝试了一下让甄嬛和安陵容来到现代都市,并且要求保持复杂的中国传统首饰不变形。
这并不是一个简单的多图融合。此前生成模型的多图参考,是文本和图像两种跨模态输入的对齐,对 prompt 格式有要求,例如 A + B + C + 运动,图像主体尽量清晰,运动描述尽量直观简洁,还需要一定的抽卡概率。
而 Gemini 2.5 Flash 显然对复杂的多模态输入理解得更加准确。
这个多图融合的 featuer,在匿名测试阶段就已经被电商用户疯狂夸赞了,我们接下来尝试了商品的替换,实测结果却轻微地翻车了。
我们给出了一个小学脑力计算题,在很短的时间内,模型就计算出了正确答案。
" 社区民选 " 的胜利
不仅模型的一致性效果很惊艳,此次模型出圈的路线也很有趣。
8 月中旬,这款模型以完全匿名身份出现在 LMArena 的对战模式中时,用户需要在不知来源的情况下,仅凭生成效果进行盲测投票,短短两周时间,凭借在 " 一致性 " 上的压倒性优势,"nano-banana" 在盲测中持续胜出,迅速引起了全球 AI 核心用户和开发者的注意。
讨论从 LMArena 平台迅速扩散至 Reddit、X ( Twitter ) 、Discord 等社区。用户自发进行极限测试、分享惊艳案例,并为其创造了 " 一致性之王 "、"Photoshop 杀手 " 等极具传播力的标签,甚至很多人会因为想要使用 nano-banana 模型,反复参与点评和测试,只为获得一次随机抽中 banana 的机会。
就在不少人还在猜测,模型是否会开源,什么时候正式发布的时候,谷歌工程师巧妙地在社交媒体发布 "" 表情符号,将解谜游戏推向新高度。8 月 26 日,在市场热度和口碑达到峰值时,谷歌正式宣布 "nano-banana" 即为 Gemini 2.5 Flash Image 模型,并开始全面推送。
很难说,这一路径并非谷歌有意为之。毕竟,早在 8 月初刚刚出圈,就有外媒报道,多位 AI 研究者和爱好者推测,nano-banana 可能是谷歌最新的图像生成模型,也有观察人士认为,可能来源于 Qwen Image 或来自各大实验室尚未发布的其他模型。
当然,这种 " 神秘发布 " 模式并非谷歌首创,从去年开始,不少模型们都会选择在 LMArena 上进行盲测,OpenAI 此前也曾让神秘模型 "im-also-a-good-gpt2-chatbot" 现身竞技场,最终揭晓为 GPT-4o 测试版,预热了产品发布。
一方面,模型们选择 LMArena,固然是因为在匿名的黑箱中,用户的选择完全是基于模型的实力,而排除了品牌的偏见和预期,为真实性能提供了纯粹的认证。
另一方面,在 AI 竞赛白热化的背景下,大厂的模型发布往往会被置于一种 " 追赶者 or 颠覆者 " 的叙事框架内,从而被严格审视甚至审判。
相比起传统的高举高打的发布模式,匿名发布再到官方认领的策略,完成一次 " 民选 " 模型的病毒式传播,既充分利用了社区自发传播的势能,又避免了过度炒作可能带来的反噬效应,使其性能优势在发布前就已成为 " 市场共识 "。
这也为焦虑市场反馈的下一代模型们,提供了一种新的发布思路。