关于ZAKER 合作
钛媒体 12分钟前

一根香蕉引发的 AI 狂潮

文 | 刺猬公社,作者|朗宁,编辑|陈梅希

八月中旬,一个低调的匿名模型悄然登陆海外 AI 测评平台 LMArena,没有开发者标签,也没有品牌背书,只有一个奇怪的代号 "Nano Banana"。

虽然看起来老实巴交的,但 Nano Banana 却在平台的 Battle 模式中,展现出惊人的图像一致性和自然语言编辑能力,轻松击败了众多知名对手。网友们被其一骑绝尘的硬实力折服,自发为它打上 " 一致性之王 " 和 "Photoshop 杀手 " 等标签。

很快,Nano Banana 的热度从 AI 测评平台蔓延至 Reddit 和 Discord 的技术论坛中,人们激烈讨论模型本身的同时,都试图揭开背后开发者的神秘面纱。

正当网友众说纷纭、如火如荼地解谜时,谷歌 AI Studio 负责人 Logon 在 X 平台发布了一个香蕉表情符号,DeepMind 产品经理 Naina 也分享了一张香蕉艺术贴墙作品,加上谷歌以往就有将小型模型命名为 Nano 的历史,答案变得呼之欲出。

当 Nano Banana 的热度攀升到峰值时,谷歌终于在 8 月 27 日亲自下场揭晓答案:Nano Banana 正是其全新推出的图像生成与编辑模型 Gemini 2.5 Flash Image。

这场匿名模型引发的全球竞猜游戏,以谷歌官宣认领而告终,但颠覆性的 AI 图像狂潮,才刚刚开始。

Nano Banana 风暴席卷互联网

Nano Banana 正式上线一周后,谷歌实验室总裁 Josh Woodward 在 X 平台透露,该模型全面推出后已累计完成超2 亿次图像编辑,为 Gemini 吸引了超过 1000 万新用户,其火爆程度甚至导致谷歌内部"TPU 严重过载,SRE 警报不停 "。

汹涌而来的热情用户,让 Nano Banana 几乎刷屏了全球各大社交媒体,人们争先恐后参与体验、开发新玩法、分享传播的盛景,不禁令业内人士发出 " 好像 2023 年 ChatGPT 时刻 " 的感叹。

率先出圈的是 Nano Banana 多元素拼接的玩法,用户可以上传一张多元素排布图,并给图中每个物品打好标签,然后在指令中下达你想要生成的图片概述即可。

比如一位叫 Travis David 的用户在 X 发文称,他将 13 个元素排布在一张图里上传到 Nano Banana,轻松获得了一张堪比 VOGUE 杂志的时尚大片。

多元素拼接功能在海量用户的开发下,很快出现各类邪修玩法。

最基础的当属 " 实现 OOTD 自由 ",以往需要费劲心思扒明星同款穿搭的时尚博主们,如今只要把图片上传给 Nano Banana,模型就能秒出穿搭清单,甚至二次元动漫角色的穿搭也能被转化为 OOTD 图。

实测过程中,刺猬公社发现,用户甚至可以让 Nano Banana 按照指令生成某种风格的模特穿搭图,再将生成的穿搭图拆解为 OOTD,全程仅耗时三分钟。拆解 OOTD 过程中,它犯了一个小小的错误,导致 " 靴子 " 单品出现两次,提出修改指令时,它也能 " 听懂人话 ",只删掉多余元素,没有改动图片的其他部分。

AI 生成的模特图和 OOTD,生成工具:Gemini2.5FlashImage(Nano Banana)

这个使用场景反过来同样惊艳,对于日常真人出镜拍摄 OOTD 的网红模特来说,大可以省去画全妆、找场地、摆 pose 等一系列为了出片所做的繁琐工作,选一张状态好的全身照、一张面部写真,再把穿搭单品图片上传,写真级别且无需修图的素材转瞬即得。

除了应用于人与物之间的图像生成,网友们还发现 Nano Banana 同样适用于人与人关系的拼贴,这让一众追星党们直呼万岁。

无论是遥不可及的好莱坞巨星,还是叱咤风云的商界巨擎,就算是叫嚣着自己是火星人的马斯克,只要一声令(prompt ) 下,都得千里奔赴来跟你拍一张合照。

而更进阶、也是近期最出圈的玩法,就是利用 Nano Banana 自制手办。

简单的操作是上传自家毛孩子、明星、二次元偶像的图片,直接下令生成适用手办制作的图像,Nano Banana 就会给出建模图,甚至连手办成品的细节图乃至视频也能获取。

虽然还没有用户实测做出手办的分享,但刺猬公社发现在万能的电商平台上,已有商家开始承接基于 Nano Banana 生成图像的手办制作。经我们询问,该商家表示 AI 生成的手办建模图只能作为参考,实物做出来仍有差距。

左侧是用户上传图片,右侧是商家根据 Nano Banana 生成图片制作的手办

很多人看到这里也许已瞠目结舌,但 Nano Banana 的全部实力远不止于此,比如它在地图和建筑领域的空间推理图像再生效果,就让很多专业人士啧啧称奇。

Nano Banana 的地图视觉推理能力之强,可以在只上传一张平面地图的情况下,按照用户打的标签和指令,平地起高楼般生成地图对应的实景。

相对应地,如果用户上传一张城市建筑实景图,Nano Banana 又能清晰地给出图中建筑的模型图,或者按照用户的要求标注图片建筑的相关信息。

不仅如此,有网友实测这个功能同样适用于数码电子产品甚至智能汽车。

随着 Nano Banana 的走红,层出不穷的创意玩法以日为单位被开发出来,利用模型做漫画分镜、给线图上色,甚至直接生成有连贯剧情的电影画面…… .

上述一切的发生只用了短短两周时间,其爆发速度甚至超越了当年横空出世的 ChatGPT。

剥开 Nano Banana 的香蕉皮

剥开这款 AI 产品的香蕉皮,就会发现 Nano Banana 能够风靡社交媒体,绝非仅是互联网营销的胜利,更是一场技术范式的突破。

通俗来说,Nano Banana 的技术突破可以理解为一整套针对" 理解 - 生成 - 保持一致 - 快速迭代 "闭环的工程化解决方案。

在理解上,早期的 AI 模型往往 " 偏科 " 严重,ChatGPT 有很强的文字读写能力,但不太懂图像;而 Midjourney 和 DALL-E 3 为代表的模型,绘图能力虽强但对文字的解读却很浅显,经常把指令的需求搞错。

原因在于这些传统模型更像一个 " 翻译官 ",它将用户的指令(prompt)转化成一个中间的、抽象的数学表示,然后图像生成模型再根据这个数学表示来绘图。

这种单向管道式的工作原理,一方面不可避免地会在 " 中间表示 " 环节丢失大量原始指令的细微语义;另一方面,它很难原生地处理图像输入,当用户上传一张图片进行编辑时,模型需要先将图片 " 反向翻译 " 成中间表示,然后再进一步绘图。

而 Nano Banana 则像一个生于多语言环境的人,从训练之初就以文本、图像、代码等数据给模型学习,因此它不再需要将一个模态 " 翻译 " 成另一个模态,而是天然就具有多模态语义对齐能力。正是这种在文字和图像之间无缝丝滑的切换能力,使得用户可以用日常对话的形式(模糊指令),无痛用嘴修图。

Nano Banana 的技术突破远不止于此,它在交错式生成一致性保持上,也对传统模型进行了降维打击。

顾名思义,交错式生成指模型能够在一个连续的、多步骤的会话中,综合理解所有上下文的能力,包括用户之前下达的文字指令、上传的图片,以及模型自己生成的历史结果;而一致性保持则指模型在多次生成和编辑中,保持特定主题(人物、物体、风格)的核心能力,也是 AI 图像模型长期竞逐的 " 圣杯 "。

用一个例子来呈现 Nano Banana 与传统模型的差距,假设任务是为哈利波特创作一组不同场景下的插图。

传统模型就像是与多位独立的插画师合作,每次下达任务前,你都需要用文字重新描述哈利的全部特征 " 黑头发、绿眼睛、圆眼镜,额头有闪电伤疤 ",但令人抓狂的是,每个插画师对文字的理解不尽相同,最终得到的每张图片的哈利虽然都有上述特征,但看起来并不像同一个人。

不仅如此,独立插画师之间对彼此的风格并不了解,如果你想让插画师 B 绘制 " 哈利在图书馆复习的场景,且与插画师 A 负责的魁地奇球场分镜风格一致 ",这几乎是不可能完成的任务,因为插画师 B 既不知道魁地奇球场什么样,也不知道插画师 A 的风格是什么。

而 Nano Banana 则像一位与你长期合作的资深插画师,你只需要在最开始工作时告诉他哈利的特征,然后就能与老友对话般轻松和流畅的方式,让这位记忆力绝佳的艺术家,听从你的调遣。

此外,Nano Banana 还有着远超传统模型的快速迭代能力。

任何好模型若无法快速响应用户,都会极大降低破圈与普及的潜力。在对用户指令的响应与快速迭代上,传统模型就像用打字机写作,任何一个修改都可能需要重打整页纸,而 Nano Banana 则进化到了 word 写作,可以随时删除 / 修改局部,并立刻看到整篇文章(图像)的新面貌。

Nano Banana 能实现这一突破,不仅在于团队将模型压缩优化到实际产品中以秒级响应(实测约 13 秒 / 张)返还高清图像,上述多模态语义对齐、交错式生成和一致性保持等优势的加持,也是 Nano Banana 对用户指令快速响应迭代的重要原因。

颠覆、重塑与共生

从问世到席卷全球的两周时间,Nano Banana 的冲击波同样撼动了资本市场与产业端的神经。

谷歌发布 Nano Banana 当日,创意软件巨头 Adobe 的股价就应声下跌约 2%;比即时波动更关键的是长线走势,据 Business Insider 报道,Adobe 的股价在过去一年累计下跌了 35%,主要原因之一就是极速发展的人工智能带来的颠覆性变革。

颠覆带来的危机感随着网友不断解锁 Nano Banana 的新玩法,传导至更多职业领域。

一位刚入行的电商服装模特告诉刺猬公社,原本中小商家聘请模特拍摄每天成本约 1500 元 / 人,上架时间至少以周为单位,而 Nano Banana 能将这一整套流程压缩至分钟级," 如果 AI 生成图像的细节继续完善下去,未来肯定不需要这么多真人模特了 "。

还有很多电商摄影师、后期修图师,乃至视觉设计师,也纷纷在社媒平台发帖调侃称眼看着被 AI 抢了饭碗,准备转行去卖咖啡、送外卖、开滴滴。

AI 在产业端造成的轰动不仅发生在图像赛道,就在谷歌上线 Nano Banana 的前一天,翻译界的最高学府蒙特雷国际研究学院宣布关闭,这家曾培养了大量外交官、翻译专家和国际 NGO 组织负责人的顶级名校,自 ChatGPT 问世以来生源大幅锐减,最终陷入财务困境。

但历史上的技术革命告诉我们,创新从未单纯地使某个行业消亡,旧生产关系被颠覆的同时,必然伴随产业重构和新职业的诞生。

模特行业不会消亡,但将走向分化," 批量平替 " 需求势必会被 AI 取代,但只有人类才能表现出的 " 故事性 " 与 " 情感细节 ",始终是市场的稀缺资源。

与此同时,商业摄影师、修图师和设计师的角色也在被重塑,他们的核心价值不再局限于操控相机或软件,而是延展到审美判断、叙事构思和情绪引导,以及最关键的新能力:驾驭 AI 实现创作意图。

而对于 Adobe 在内的工具型平台而言,摩根士丹利分析师认为,这些应用软件在 AI 时代的价值,在于提供 " 最后一公里 " 服务。

事实上,互联网用户对于图像和文字生成的需求,无论是千人千面的多样化程度,还是用户基数决定的庞大且碎片化的指令数量,都决定了通用 AI 模型很难提供端到端的完美解决方案。

因此就像物流运输公司负责中途货运,最后一公里交由快递站点配送一样,Adobe 等平台目前也开始接入第三方基础大模型,并基于自身的数据与资源进行后期训练,最终打造出更贴合用户需求、更专业的 AI 落地产品。

换一种视角看,这场技术浪潮并不是一场零和游戏。Nano Banana 的出现加速了产业洗牌,但同时也在打开新的机会窗口。无论是创作者、设计师还是企业,真正的挑战并非如何抵挡 AI,而是如何找到与之协作的路径。

工业革命时期的机器扩展了人类的肌肉力量,如今的生成式 AI 则在延展人类的想象力和表达力。或许我们正在进入一个全新的内容创作阶段,在这里,人与 AI 并非对立的两极,而是互为补充的伙伴关系。

与 AI 共生的时代,正缓缓拉开帷幕。

相关标签

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容