最近在测试各种 AI 生图模型的时候,我们发现了一个现象:同样一个提示词,丢给不同的模型,出来的图片风格差异大到像是出自不同摄影流派。
Image-2 生成的图就像我昨天随手拍的,但 Nano Banana 生成的图感觉像某个家居品牌的广告大片。有些模型执着于捕捉现实的每一丝瑕疵,有些则痴迷于把日常场景变成精致的艺术品。这背后反映的不是能力差别,而是每个模型对 " 什么值得被看 " 有了不同的商业假设。
这就是 " 模型味 ",也就是这种模型特点的底色——一种被量化、被大规模复制、正在成为下一代视觉内容底色的审美偏执。
Image-2:隐藏于真实世界的间谍
Image-2 的核心逻辑很简单:放弃所有摄影技巧,只生成人眼真实看到的样子。
从商业角度看,这意味着最低的视觉加工成本。
下雨天的公交站不需要电影级打光——就是淅淅沥沥、萧瑟的样子。

深夜的便利店黑漆漆一片,只有 711 亮着灯的诡异感。

城中村那种根本没有管制,小商小户们一起在小小地方无规则的拥挤的感觉非常真实。

阳台的晾衣杆虽然有点穿帮,但是那种黑云压城城欲摧的低气压感表达的很到位,那些现实的瑕疵、不规则感,别的模型可能视为缺陷要修正,Image-2 却把握得很到位。为什么?因为这些不规则本身就是真实的证明,也是最省算力的渲染方案。它不会给你打光、调色、精心构图,它就是你的眼睛——你瞥到什么,它就生成什么。
这就是 Image-2 的商业密码:看它的输出,你的第一反应永远是 " 这好像是我昨天看过的 ",而不是 " 这是 AI 生的 "。它成功地把自己隐没在了日常生活里,成为最隐形的摄像机。对于需要大量真实素材的产品(比如 Adobe 的设计工具),这种 " 不被认出来 " 反而是最大的价值——用户不需要二次加工,直接可用。
Nano Banana2:楚门世界的艺术总监
Nano 的逻辑完全相反——把现实变成一个被精心摆拍的世界,让每一个物体都配得上被凝视和转化。
同样是垃圾堆,Image-2 给你的是真实的脏乱臭味,Nano 给你的是一个艺术布景。

半个西红柿不是随便切的——二十精挑万选、打了面光、喷了水、特意固定了位置。

这个刚起床的卧室根本毫无睡了一夜的杂乱感,而是感觉这是一个卧室家居用品的广告拍摄现场


Nano Banana 的世界观很清晰:本该自然无序的一切,都被调教得更适合被观看、被欣赏、被购买。这是一个过度设计的乌托邦,也是互联网产品想要呈现给用户的那个理想世界。
豆包 / 即梦:不太全能的情感阐述高手
字节系的这两个模型遇到了一个典型的商业难题:把大部分算力投给了人物情绪和面部特征,其他维度的成本控制就显得很吃力。
优势很明显。望着窗外的女孩那张,舒适和惬意表达得精准。

但短板也很直白。色调比较浓重,暖调和冷调十分失衡。最能暴露问题的是光影处理——光线要么极度强烈,要么几乎没有光影。影子一多了,豆包就干脆只精心生成有光线的地方。在生成智能手机、旧书店角落、黑咖啡这些图片中,这个成本分配的不均衡表现得最突出。


可灵:追求帧帧充满故事感的好莱坞导演
可灵作为短视频的主力生成工具,遵循的是完全不同的商业逻辑——每一帧都必须在讲故事。
所有的图都被放置在了一个已有的世界观或语境里,每一个画面都在暗示:接下来会发生什么。这种 " 预叙事 " 能力体现在细节里。正在系鞋带的男人,你一看就感觉他发现你在看他了。走廊尽头那张,透视感极强,感觉是高档酒店的短剧现场,你能想象有人会从那头走出来。地下停车场给人安静的诡异感,下一秒灯就会从远处一个个快速熄灭。


使用越多,越会发现今天各个模型都有了它自己的一套视觉 " 方言 ",而这些视觉语言都是审美的直接反映,模型逐渐在审美品味上直接区分开来。
而除了各种数据和训练方法带来的审美不同,选择不同模型时,还有不同的成本考量。
需要真实 / 电影级素材用 Image-2 ——现实感强,瑕疵本身就是素材,省去了后期精修的成本。需要 3A 游戏场景或房屋中介宣传图用 Nano Banana 2 ——那种真实华丽但又一眼看出不是现实的感觉,正好适配售楼处 " 理想化呈现 " 的成本结构。需要表达人物情绪和面部特征用豆包或即梦——这两个模型在 " 情感转化 " 上的成本最低。需要游戏人物或短视频素材用可灵——叙事感和视觉冲击力的 ROI 最高。
这都会使得接下来 AI 生图的竞争从 " 谁更强 " 转向 " 谁的味儿更对口 "。而且,这种视觉倾向和偏好在使用中会再被加强,形成一个个风格的闭环。最终,最多用户的几个主要的模型很可能会一起改变人们对于审美的最根本理解。