APP下载

关于ZAKER

合作

硅星人刚刚

没有发布会，没有 CEO 站台，谷歌用一根“香蕉”赢得了欢呼

在大模型发布新版本往往高举高打的当下，Google 的一款秘密模型低调地引爆了社交网络。

8 月中旬，一个名为 nano-banana 的模型在 LMArena 平台的「Battle」中被发现，尽管没有任何官方开发者明确声称其归属，但很快，出于惊人的效果获得了病毒式的关注。甚至大量用户只为能被分配到该模型，而不断地参与平台模型盲测，相关图片也在社交平台上广泛传播。

直到北京时间 8 月 27 日凌晨，谷歌正式认领了该模型，正是新推出的 Gemini 2.5 Flash Image，目前已经可以在 Gemini app、Google AI studio、Google API 进行使用。

在官方介绍中，核心技术亮点主要是以下三个：

颠覆性的一致性（Consistency）：在连续生成或编辑中保持人物身份的稳定。

自然语言驱动的编辑：用户仅通过对话式指令即可实现高精度图像修改，无需复杂的专业工具。

闪电速度：图像生成与编辑响应时间通常在 1-2 秒内，提供了接近实时的交互体验。

我们也实测了一番，结果有惊艳，也有翻车，但确实在一致性上做到了断层领先的水平。

模型实测：能帮我实现 Labubu 自由，还会做计算题？

一打开模型，我们就向 AI 下达了第一个指令：给我来七个 Labubu，直接实现 " 手办自由 "。

直接上传一张 Labubu 的商品图，并复制修改了这段广为流传的手办 Prompt，生成结果如下：

乍一看效果非常好，Labubu 的外形特征、搪胶材质都非常的逼真，甚至可以发朋友圈以假乱真。但仔细一看，数量却不对，桌面上只有六小只，缺失了一个绿色的玩偶。

让 AI 学会准确数数，依然是个问题。另外，由于我们最初的 prompt 里提到了 " 正版 "，AI 没能输出结果，修改措辞后才完成了生成。

接下来，我们又尝试了多张图片融合，据官方介绍能够保持人物的一致性，目前最多可支持三张图片合成，我们尝试了一下让甄嬛和安陵容来到现代都市，并且要求保持复杂的中国传统首饰不变形。

AI 也基本完成了任务，在甄嬛的身体发生转动和变化的情况下，袖口的花纹和头饰基本没有变化，并为了完成 Prompt 中提到的 couple（没错，我是甄嬛和安陵容 CP 粉），设计了一个在街头亲密自拍的动作。

如果觉得这个姿势不够满意，甚至可以通过简笔画的方式，让 AI 直接理解图片示例，比如我们直接告诉 AI，姿势照着图二修改。

尽管火柴人画得很抽象，但 AI 还是完成了任务。

这并不是一个简单的多图融合。此前生成模型的多图参考，是文本和图像两种跨模态输入的对齐，对 prompt 格式有要求，例如 A + B + C + 运动，图像主体尽量清晰，运动描述尽量直观简洁，还需要一定的抽卡概率。

而 Gemini 2.5 Flash 显然对复杂的多模态输入理解得更加准确。

这个多图融合的 featuer，在匿名测试阶段就已经被电商用户疯狂夸赞了，我们接下来尝试了商品的替换，实测结果却轻微地翻车了。

将两张图片融合后的生成结果如下，尽管可以看到材质、样式符合了原图，但遗憾是个超大杯。

当我们试图通过 prompt 修改，让香水瓶恢复正常尺寸时，模型却显得始终执着于超大杯，修改后的图片与原图几乎没有差别。

虽然很想继续修改，但大量用户涌入后，由于 " 内部错误 "，这个号称能速生图片的模型硬生生卡了几分钟，也无法完成更多任务了。

不过值得注意的是，官方提到得益于 Gemini 的先进推理，模型会有一定的理解和思维能力。尽管在符合现实逻辑上翻了车，但计算数学题却成功了。

我们给出了一个小学脑力计算题，在很短的时间内，模型就计算出了正确答案。

此处值得一个掌声。

" 社区民选 " 的胜利

不仅模型的一致性效果很惊艳，此次模型出圈的路线也很有趣。

8 月中旬，这款模型以完全匿名身份出现在 LMArena 的对战模式中时，用户需要在不知来源的情况下，仅凭生成效果进行盲测投票，短短两周时间，凭借在 " 一致性 " 上的压倒性优势，"nano-banana" 在盲测中持续胜出，迅速引起了全球 AI 核心用户和开发者的注意。

讨论从 LMArena 平台迅速扩散至 Reddit、X ( Twitter ) 、Discord 等社区。用户自发进行极限测试、分享惊艳案例，并为其创造了 " 一致性之王 "、"Photoshop 杀手 " 等极具传播力的标签，甚至很多人会因为想要使用 nano-banana 模型，反复参与点评和测试，只为获得一次随机抽中 banana 的机会。

就在不少人还在猜测，模型是否会开源，什么时候正式发布的时候，谷歌工程师巧妙地在社交媒体发布 "" 表情符号，将解谜游戏推向新高度。8 月 26 日，在市场热度和口碑达到峰值时，谷歌正式宣布 "nano-banana" 即为 Gemini 2.5 Flash Image 模型，并开始全面推送。

很难说，这一路径并非谷歌有意为之。毕竟，早在 8 月初刚刚出圈，就有外媒报道，多位 AI 研究者和爱好者推测，nano-banana 可能是谷歌最新的图像生成模型，也有观察人士认为，可能来源于 Qwen Image 或来自各大实验室尚未发布的其他模型。

当然，这种 " 神秘发布 " 模式并非谷歌首创，从去年开始，不少模型们都会选择在 LMArena 上进行盲测，OpenAI 此前也曾让神秘模型 "im-also-a-good-gpt2-chatbot" 现身竞技场，最终揭晓为 GPT-4o 测试版，预热了产品发布。

一方面，模型们选择 LMArena，固然是因为在匿名的黑箱中，用户的选择完全是基于模型的实力，而排除了品牌的偏见和预期，为真实性能提供了纯粹的认证。

另一方面，在 AI 竞赛白热化的背景下，大厂的模型发布往往会被置于一种 " 追赶者 or 颠覆者 " 的叙事框架内，从而被严格审视甚至审判。

相比起传统的高举高打的发布模式，匿名发布再到官方认领的策略，完成一次 " 民选 " 模型的病毒式传播，既充分利用了社区自发传播的势能，又避免了过度炒作可能带来的反噬效应，使其性能优势在发布前就已成为 " 市场共识 "。

这也为焦虑市场反馈的下一代模型们，提供了一种新的发布思路。

查看原文

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

ZAKER旗下免费视频剪辑工具

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频剪辑

AI视频剪辑

AI智能客服

AI工具箱

AI写稿助手

AI口语陪练

我的订阅

没有发布会，没有 CEO 站台，谷歌用一根“香蕉”赢得了欢呼

宙世代

一起剪

相关阅读

国产操作系统，离好用还远吗

小米澎湃OS 3更顺手了！新增倒班闹钟、未读短信一键已读等实用功能

微软向更多用户开放云游戏功能

美团王兴再回应外卖竞争：坚决反对内卷 坚持做正确的事

杨幂同款！华为Mate XTs非凡大师上架开启预约

4年前产品领先小米新品 代际差距引爆双方口水战：卢伟冰晒目标凸显格力隐忧

中国电竞显示器线上销量TOP 10：AOC大涨94%夺销量冠军 小米第6

小米澎湃OS 3今天发布 首批Beta版测试机型8月29日推送

曝苹果A20芯片首发台积电2nm工艺：价格大涨

星舰“通关”第十次试飞，马斯克压力仍在

老庙黄金致歉！补偿方案公布

将全面取消！美团宣布→

英伟达+数据中心+第三代半导体+机器人！公司参与英伟达Blackwell系列架构数据中心硬件合作建设

无招放出胜负手

美团Q2电话会：预计核心本地商业三季度会出现较大规模亏损

最新评论

硅星人

热门推荐

热门订阅 换一批

硅基星芒

美团王兴再回应外卖竞争：坚决反对内卷坚持做正确的事

4年前产品领先小米新品代际差距引爆双方口水战：卢伟冰晒目标凸显格力隐忧

中国电竞显示器线上销量TOP 10：AOC大涨94%夺销量冠军小米第6

小米澎湃OS 3今天发布首批Beta版测试机型8月29日推送

热门订阅换一批