
全新的 nano banana 2 能有多强,看下面这张 11:15 的时钟和满杯的红酒。

为什么说这张照片厉害,在 AI 生图领域,有一个极具挑战性的测试,目前还没有 AI 能稳定做到,那就是时钟和满杯红酒测试。
输入提示词「时钟上显示 11:15,红酒杯已满至杯口(11:15 on the clock and a wine glass filled to the top)」,就能检测你的 AI 生图是否够聪明。

而 nano banana 2 做到了。对比当前版本的 nano banana,它的文本渲染能力更进一步,直接写字,不同风格和不同语言都可以驾驭;世界知识也进一步强化,能准确生成各种信息图表;指令遵循方面表现也更加出色。

和 Nano Banana 最早在大模型竞技场,以抽卡的形式出现不同。Nano Banana 2 模型是在 media.io 上被爆料,用户可以在这个网站上体验 nano banana 2。

不过,这个被称为 nano banana 2 的模型很快就下架了。在 Reddit 上,有用户提到 Media AI 只是短暂性地开放了一个多小时的使用权限。
但是就这短暂的时间里,网友们发现生图效果确实可以说是 NB 2.0,很快就在社交媒体上传开。大家都在分享 nano banana 2 预览模型的输出结果,发现和 nano banana 1.0 版本有着明显的区别。
下面这两张来自 1.0 和 2.0 版本的图片,你能分清楚那张是来自 nano banana 2 吗。

都是汽车模特在海边公路拍摄大片,但是很明显第一张图片色彩和风格更准确,没有专属于 AI 照片的「塑料感」。

根据 X 上爆料博主 testingcatalog 透露的信息,nano banana 2 目前仍然是由 Gemini 2.5 Flash 作为基础模型,而没有完全开始使用 Gemini 3.0 Pro。
这意味着 nano banana 2 图像模型的发布时间,可能要比 Gemini 3 来的更早。我们收集了目前关于 nano banana 2 的爆料,其中提到它有以下这几个亮点。
1、能处理更复杂的任务,例如在精确的着色、高级控制视角或角度,以及纠正生成图像中的文本元素等,当前 1.0 版本不支持的任务。

2、全新的多步骤生成工作流程,nano banana 不再是「一键出图」,而是更像一个设计师在工作。
规划: 花费相当长的时间规划输出内容。
生成: 生成一个初步图像。
审查: 通过内置的图像分析功能进行自我审查。
修正: 识别并纠正任何错误。
迭代: 根据需要进行迭代,最后才交付结果。
3、更高的分辨率和更全面的宽高比图像生成,其中更广泛的宽高比,包括 1:1, 2:3, 3:2, 3:4, 4:3, 9:16, 16:9 和 21:9 等大小,而分辨率在爆料信息中,则是称有 1K、2K 和 4K 多种模式。

其中,多步工作流,大概是 nano banana 更新里面最大的差异化卖点。之前我们可能听过 ComfyUI 这类工具,能够实现生图、生视频的工作流。但现在直接通过 nano banana 就能实现,这对于高精度图像的生成来说,是一次巨大的进步。
实际表现还是得看生成的图片来说,我们继续看看这些来自 nano banana 2 的测试案例。
更强的文本渲染
首先是真实的电脑截图,nano banana 2 能直接生成一个 Windows 电脑截图,屏幕显示浏览器,正在访问 YouTube 网站,并且指定视频的封面是野兽先生。

更复杂一点的玩法,甚至能直接让 nano banana 2 生成一个 Google DeepMind 的网页截图,这密密麻麻的文字没出现乱码,真的厉害。

不仔细去看,光看大标题和那些小标题,还真的很难发现这里面的错误。但是,当要处理的文本内容少一点的时候,nano banana 2 出现错误的概率就会小很多。
这张电视台新闻直播现场的图片,屏幕上的文字都是准确的,格式统一;甚至它把地板上反射的文字,都正确显示了。


我们也把同样的提示词,让当前的 nano banana 处理了一遍。

有了世界知识,更听得懂我们的指令
像开头那张 11:15 分的时钟和满杯的红酒,在评论区里,网友们纷纷贴出自己用 Grok、ChatGPT 等其他模型的生图,结果都不如 nano banana 2 准确。
还有网友分享了让 nano banana 2 把一个汉堡玻璃化,其中只有它做到了将整个汉堡都变成玻璃;而字节的 Seedream 和 Riverflow 都只是将汉堡的面包部分转成了玻璃。

在世界知识方向上的进步,让 nano banana 2 更能读懂提示词,做到严格指令遵循的同时,它还可以让我们的提示词更简单。
例如有网友测试了生成一个 GTA 6 预告片,nano banana 2 直接给了他一个完整的 YouTube 页面,它甚至还知道真正的 GTA 6 标志。

他还测试了一组提示词「one piece live action netflix」,海贼王真人版奈飞,结果 nano banana 不仅知道 Netflix 的 Logo,也知道相关的真人版演员。


而 nano banana 1.0 版本和 nano banana 2 的对比是这样的。

还有许多类似的案例,用 nano banana 2 来接数学题,然后在黑板上回答。

不只编辑,生图能力这次也有了提升
同样是在 Media AI 平台上,短暂出现的预览版本的测试效果。

东京食尸鬼里面金木研在雪中抱着朋友的场景,就这么自然地生成了。除了稳定拿捏的动漫风格,赛博朋克风格,nano banana 2 的生图效果也很高级。

还有各种各样的人像「恶搞」图片。

以及这种胶片风格满满的合影。

不过有人在评论区提到,「这根本不是 nano banana,Media AI 是一家中国公司。像 DeepSeek 当时出来的时候一样,我们也以为它是来自 OpenAI,这是他们的惯用手法。」
当时 nano banana 1 在大模型竞技场第一次出现时,大家也无法确定这个模型是否真的来自 Google,但最后只要生图效果够炸裂,我们就会买单。
拿目前这个生图效果来看,把它叫 nano banana 2 是完全没有问题。