关于ZAKER 合作
硅星人 21分钟前

为什么 Google 一直是你大爷?

2024 年 12 月,在跟媒体的私下聚会上,Airbnb CEO Brian Chesky 跟大家滔滔不绝地说起他刚刚提出的、在硅谷引发了激烈讨论的 "founder mode" (创始人模式)。

他举的例子是:Google 永远不可能在 AI 领域赶上 OpenAI。他了解他的好朋友 Sam Altman 如何亲历亲为、高效地,以权谋和手腕,推动着人类历史上最野心勃勃的创业项目。而 Google,则是官僚主义和大公司病的代表。

Airbnb CEO Brian Chesky

那会儿 Gemini 2 还没发布,硅谷巨头在大模型领域的成功代表是因为 Llama 而备受赞誉的 Meta,Google 不被看好。

而今年 10 月再见到 Brian Chesky,他对 OpenAI 的抱怨已溢于言表:他觉得 OpenAI 想垄断一切面向消费者端的 AI,但并不能做到。同时他承认:Google 已经追上来了,Gemini 很厉害。

而当 Gemini 3 问世之时,外界的看法普遍是:Google 不但追上来了,而是已经超越了 OpenAI。正是因为 Google 的反超,OpenAI 拉响了红色警报。

20 年以来,你大爷 Google 一直都是你大爷。

2023 年 2 月 6 日,Google 在 ChatGPT 席卷全球的压力下仓促推出 Bard 大语言模型的时候,乏善可陈的性能表现很快让它成为被群嘲的对象。

一切是在 2024 年 12 月 Gemini 2 的推出开始改变的。Gemini 2 和 Gemini 2.5 的出色表现,让 Gemini 成为美国 App Store 排行榜第四的热门应用,人们也开始重新审视 Google 的 AI 家底。而 Nano Banana 病毒式传播的精彩亮相,让 Google 甚至展现了创业公司般的灵活性。

因此,Gemini 3 被外界寄予了极高的预期——这通常是一个危险的信号。当外界对一款模型的预期过高的时候,它是很容易翻车的—— GPT-5 就是个典型,它其实没那么差,只是不如人们想象的 " 神奇 ",就成了被群嘲的对象。而 Gemini 3 居然打破了这个魔咒,它几乎惊艳了所有人。

Gemini 3 的多模态的动态交互让 ChatGPT 开创的 " 聊天框 AI" 显得黯然失色;它在编程能力上也快速补齐,不再像一个文科生;而内化在 Gemini 3 里的新版 Nano Banana 已经成了一个完整的 Agent,不仅是视觉呈现,而且在推理方面也极具想象力。

而且,Google 还第一次公开宣称完全采用自己的 TPU 而不是英伟达的 GPU 训练 Gemini,而且,Meta 已经从英伟达 " 倒戈 " 转而采购了 Google 的 TPU。显然,这挑战了 OpenAI、英伟达和甲骨文苦心孤诣建立起来的 AI 金融秩序,打压了硅谷已经明显泛滥的 AI 泡沫。

这一切是怎么发生的?Google 还是那个规模庞大、业务无所不包、官僚主义仍随处可见的巨头 —— 甚至两年前被股东和员工呼吁下台为 AI 布局失利担责的 CEO Sundar Pichai 也还在台上,还坐得更稳了。

在最近的一场对谈中,Google CEO Pichai 将这解释为 " 长期主义 " 的胜利。Google 积累了数十亿用户的使用习惯,多模态数据的闭环,从芯片到产品的全栈掌控,以及前沿研究的转化机制……

" 长期主义 " 是个筐,什么好处都能往里装,什么问题也都能用它掩饰。如果 " 长期主义 " 能解释一切,那 Google 一度留不住最聪明的研究人员,任由他们流向 OpenAI 和 Anthropic 是怎么回事?Bard 模型一开始的拉垮又是怎么回事?Gemini 3 今天大放异彩,真的是因为 Google 从 2017 年 Transformer 诞生以来做的一切都是对的么?

我们还是从 Gemini 3 本身寻找答案。

" 生成式 UI":探索了 20 年

跳出 "ChatGPT 式 " 的一问一答和聊天框,让人们一句话创建沉浸式的视觉体验和交互界面,如网页、游戏、工具和应用程序,让不断变化和跳动的界面在人们眼前飞舞滚动,而这就是一个视觉元素丰富、可以直接交互和操作的结果。它以视觉布局和动态视图的形式呈现,很炫酷,也很颠覆。

这是 Gemini 3 初一登场最让人眼前一亮和感到兴奋的功能。

问题是,为什么是 Google 能这么做?为什么 Google 能想到该这么做。如果我说 Google 已经这么做了 20 年了,你信么?

它还真的做了 20 年了 —— 2005 年,Google 上线了 Knowledge Graph,从此,Google 搜索返回的,不再只是蓝色的链接,而是从多个数据源自动组装的信息卡片;2012 年,Google 推出 Featured Snippets,开始提取并重组网页内容,搜索直接生成答案;2016 年 Google 推出了各种垂直 widgets ——天气、航班、计算器等等,让你不用点击任何链接,就能完成任务。

这些功能都跟 AI 没什么关系,但它体现的是 Google 对生成式 UI 的执念。

世界是视觉构成的,文字只是视觉的抽象。人类天生更亲近视觉,而视觉可以通过搜索引擎自动生成。Google 至少花了 10 年时间,让人们尽可能不跳转到别的网页,甚至不用下拉 Google 的搜索结果,就能在排在最前面的插件里,直接解决问题。

而 Gemini 3 的生成式 UI, 只是把这个逻辑推到了极致。

你问 " 三体问题的物理原理 ",它即时生成一个交互式模拟器,让你自己调整变量,观察引力相互作用;你让它 " 比较两种抵押贷款方案 ",它即时创建定制化计算器,直接算给你看。用户可能觉得它太炫酷了,可 Google 过去 20 年一直在做的就是生成结果的 UI 化,无论是不是大语言模型驱动的。

不是因为 Gemini 3 酷,而是因为 Google 的 UI 酷了 20 年了,这次被搬到了 Gemini 上。这当然需要想象力,但更重要的是经验和直觉。

只是没人讨论这一点——搜索引擎时代的成功经验已经被大多数人认为是过时的、可以抛诸脑后的经验了。如果说 Google AI 翻盘靠的真的是 " 长期主义 ",这是为数不多的、也是最直接有力的例证。

" 双子星 " 与原生多模态的启示

一句话生成一个世界的生成式 UI,离不开多模态的能力,想想看一个三体的交互模拟器里面有多少文字、动画,甚至视频的元素。这也是 Gemini 3 最令人称道的部分:原生的多模态能力。

它天生是感官互通的:当有人问 " 这个 YouTube 视频里讲的方法,能解决我在这份 PDF 文档里遇到的问题吗 ?" ——很多模型的做法是:先将 YouTube 视频里的内容抽象成文字,再将 PDF 文档里的文本和图表抽取出来变成文字,然后再将两者关联进行推理,然后输出源源不断的文字结果。

而 Gemini 3 的做法是:直接理解视频里的视觉和声音,再理解 PDF 里的文本和图表,然后进行跨模态的推理,再将推理结果以生成式 UI 的插件、动画和动态页面呈现出来。整个过程是多模态的,没有文字和文本赚差价。

更好的例子是 Nano Banana Pro。它已经不是简单的生图应用了,而成了基于 Gemini 3 能力的视觉 Agent。它能把白板上字迹潦草的涂鸦补全成信息含量更高的视觉表格,把一部视频直接变成形象和风格高度一致的漫画,独立完成复杂的信息补齐、推理与风格建构,它真正理解了世界的结构,而不是理解了图像。

Gemini 3 + Nano Banana Pro 画的小人书

多模态的推理能力,意味着多模态的架构原生。很多人以为多模态就是能模型看图、能听音频,而它真正的意义是在不同模态之间直接建立语义关联。它也意味着:Gemini 3 的训练过程中,文本、图像、视频、音频和代码是统一表征的。

准确地说,从 Gemini 1 开始,它就在不同的模态上进行预训练,再用额外的多模态数据进行微调,以进一步提升效果——这帮助 Gemini 从根本上无缝理解和推理所有类型的输入。它与大部分多模态模型先训练文本模型,再把视觉和音频等能力接上去——文本和图像在模型内部分开处理,再拼接起来的训练方式完全不同。

问题是:为什么从 Gemini 1 开始,原生多模态的训练方法才被启用?是灵光乍现这么简单么?

让我们看看原生多模态的核心技术栈包含了哪些研究层面的成果:首先是 2021 年的 Perceiver,它是一个处理任意模态的通用架构;继而是 2022 年的 Flamingo,一项视觉 - 语言模型的开创性工作;以及同一年的 Gato,通用智能体架构。

可以说,Gemini 3 展现的极强的理解物理世界结构的跨模态推理能力,生成式 UI 的出色表现,以及它本身自带的通用 Agent 功能,都来源于以上三项重要的研究成果。它们在一开始的时候是论文,现在已经变成了 Gemini 的核心技术。

而这些原创的研究成果,都来自 2014 年被 Google 纳入麾下的 DeepMind 团队。

开创 Transfomer 架构,奠定了当前大语言模型发展主线的是 Google Brain 团队,灵魂人物是 Jeff Dean;而推动 Gemini 彻底翻盘的多模态能力成果属于 DeepMind,灵魂人物是 Demis Hassabis。这两个团队在 Bard 失利之后迅速整合,磨合了两年多,终成正果。

Google DeepMind CEO Demis Hassabis

可以说,没有 DeepMind 的原创性贡献,就没有 Gemini 一骑绝尘的原生多模态。Transformer 是 Google 对整个 AI 学术界和产业界的最大贡献,它自己却并非最大的受益者。但 DeepMind 带来的原生多模态研究成果,毫无疑问被 Google 优先占有了 —— Gemini 3 甚至连一篇最言简意赅的综述性论文也没奉送。

这可不是什么长期主义,Google Brain 和 DeepMind 在 2023 年 4 月合并成为 Google DeepMind,是一次代际性的革故鼎新。

要知道,"Gemini" 这个词的意思就是 " 双子星 "。一颗星是 Google Brain,贡献了 Transformer 架构和大规模训练的工程能力,以及越来越重要的 TPU 基础设施;另一颗星是 DeepMind,贡献了视觉 - 语言模型以及多模态智能体的概念基础,并将它落地。

从 Android 到 DeepMind,两次伟大的整合,与 Google 的两次重塑

回看过去 10 年硅谷层出不穷的并购,你会发现,Google 2014 年对 DeepMind 的收购,毫无疑问是最成功的那个。

历史上 Google 的并购最被诟病的一点就是:整合做得太差。这 10 年最经常被提及的,是 Google 对明星硬件公司 Nest,以及对智能手机厂商摩托罗拉的收购,都是花了大钱没办成事的那种。

可人们是不是忘了?Android 也是 Google 在 2005 年收购而得的团队。正是那场收购,让 Google 凭借 Android 在移动浪潮中有了坚实阵地,让 Google 的软件全家桶横扫几十亿台智能手机。

事关全局战略的并购与整合,Google 是有成功经验的。

2023 年以来,Google 对 DeepMind 的整合,与近 20 年前整合 Android 在很多方面都如出一辙——

Google 保持 Android 和 DeepMind 日常运营相当程度的独立性,团队保持不变," 番号 " 继续存在,有独立的办公区域甚至门禁。DeepMind CEO 今天的角色,就非常像当年 Android 的创始人 Andy Rubin。

保持团队独立性的同时,Google 将 Android 和 DeepMind 的核心资产,都全方位、无缝地整合进 Google 庞大的生态体系。Google 的软件生态超过一半建立在 Android 上;而 DeepMind 带来的物理模型和原生多模态能力,与 Google 的 AI、搜索和浏览器也融在了一起。

更重要的,Android 和 DeepMind,都成了重塑 Google 核心竞争力的关键 —— 没有 Android,Google 就得被苹果按在地上打,错失 10 年的发展机遇,走向百度的那条路;而没有 DeepMind,OpenAI 过去两年按着 Google 打,可能就真把它打趴下了。

其它的并购成功与否不重要,Android 并购整合的成功经验在 15 年之后复刻在 DeepMind 上,这就足够了。

实现这种史诗性的整合,背后的推手一定是 Google 的两位联合创始人。

2005 年收购 Android 的关键决策,是 Google 的联合创始人 Larry Page 做出的,2008 年推动 Android 操作系统的主要决策人也是他。当时,Google 的 CEO 是 Eric Schmidt。

2014 年收购 DeepMind 的时候,关键决策者仍是已经回归 CEO 角色的 Larry Page,一年后他把 CEO 一职交给了曾主导 Chrome 的高级副总裁 Sundar Pichai。

而据媒体报道,在推动 DeepMind 与 Google Brain 整合过程中扮演关键角色的,是 Google 的另一位联合创始人 Sergey Brin。

Google 联合创始人 Larry Page 和 Sergey Brin

近日,在接受自家的视频播客 Google for Developers 视频采访时,DeepMind CTO、Google AI 首席架构师 Koray Kavukcuoglu 强调:一个过去被低估的事实是,Gemini 3 不是 " 模型团队 " 的胜利,而是工程、产品、模型和安全 " 第一次从第一天起就被捏在一起 " 的推进。

它是 Google 对 OpenAI 完成反超的结构性基础。

Koray 也承认:规模越大,一致性越难,但规模本身就是推进力。在这场艰难的整合中,Google 强大但臃肿的 " 基础设施 " 被激活了。智能的规模化不是靠天才,而是靠管线——这是 Google 同时推进统一模型、多产品落地、跨部门协作、全球化数据管线、超大规模训练与部署,以及 TPU 的集中采用等一系列超级复杂任务的基础。

规模是 Google 的最大难题,但现在成了最大的武器。你很难想象这背后没有创始人的亲历亲为。

在硅谷的人都知道,Sergey Brin 已经常态化出现在 Mountain View 的 Building 43,亲自写代码;偶尔在一些 Gemini 主题的开发者活动上出其不意露个脸,跟开发者互动;在播客访谈时,Brin 也抱怨过 " 大公司病 " 甚至让 Gemini 不能编程有了充分的理由,以至于他不得不亲自下场打破这些陈规旧俗。

过去的两年,在 " 创始人模式 " 下,Google 完成了一次彻底的再造,它完成了继 Android 的再一次公司层面的高强度组合,让 Google 庞大的技术工程栈不再是负累,反而成了火箭助推器。以及非常重要的,这个过程中,Google 的 " 组织能力 " 变得前所未有强大了。

创始人 Sergey Brin 重回一线,CEO Sundar Pichai 协调关键资源,DeepMind 的灵魂人物 Demis Hassabis 和新上任的 Gemini 产品负责人 Joshua Woodward 密切协作,Google 对 Transformer 核心作者、Character.ai 的联合创始人 Noam Shazeer 的成功反向雇佣收购……

比起 Meta 近期反向雇佣收购 Scale 联合创始人 Alexandr Wang 引发的 Yann Lecun 离职等一系列鸡飞狗跳的事,以及 OpenAI 自 2023 年底开始的持续宫斗和接连不断的离职潮,Google 这场整合有多厉害,应该不难体会吧。

如果没有 Google 20 年以来对交互生成方式的迷恋,就没有生成式 UI 在 Gemini 3 上的精彩表现。

如果不是 Google Brain 和 DeepMind 在关键时刻捆绑在了一起,就没有 Transformer 开启的大规模工程技术栈与 DeepMind 世界模型前沿研究碰撞而成的原生多模态架构。

如果当年 Google 没有过整合 Android 的成功经验,DeepMind 团队成为 Gemini 3 的灵魂就可能踩到更多的坑,就可能遭遇不可测的人才震荡,面临极高的整合成本……

你大爷之所以是你大爷,是因为它是历史和未来的一部分。

(本文的一些观察和思考受到捏 ta 创始人胡修涵和前智谱生态副总裁李惠子的社交媒体分享启发,特致谢意)

相关标签

相关阅读

最新评论

没有更多评论了