文 | 大模型之家
AI 能生成分镜," 拍 " 电影还会远吗?
北京时间 5 月 21 日凌晨,在 2025 年 Google I/O 开发者大会的主题演讲中,谷歌 CEO 桑达尔 · 皮查伊以一句轻松的 " 双子座季节 " 开场白,揭开了这场科技盛宴的序幕。他直言,在谷歌的 "Gemini 时代 ",技术突破不再受传统发布周期束缚,谷歌正以史无前例的速度将最前沿的 AI 模型推向全球用户。
技术突破正转化为触手可及的产品体验。皮查伊公布了一组数据:过去一年间,谷歌每月通过产品和 API 处理的 AI Token 数量从 9.7 万亿激增至 480 万亿,增幅超 50 倍;开发者生态同样迎来爆发式增长,超过 700 万开发者通过 Gemini API、Google AI Studio 和 Vertex AI 平台构建应用,较去年增长 5 倍。其中,Vertex AI 平台上的 Gemini 使用量更是飙升 40 倍。
在用户端,Gemini 应用的月活用户已突破 4 亿,Gemini 2.5 Pro 版本的使用量较前代增长 45%。搜索领域的革新尤为显著:AI 概览功能每月覆盖 15 亿用户,成为全球规模最大的生成式 AI 应用场景。皮查伊透露,谷歌搜索的 " 下一站 " 将是 AI 驱动的交互模式升级,用户将体验到更自然、更个性化的信息获取方式。
不仅如此,Google 正通过三个研究项目,将实验转化为产品:
历经数年研发,Project Starlight 的 3D 视频技术正式落地为全新平台 Google Beam。该平台通过 6 摄像头阵列捕捉用户动作,结合 AI 生成 3D 光场显示,实现毫米级头部追踪和 60 帧实时渲染。皮查伊现场演示了与惠普合作设备的沉浸式通话效果,并宣布首批测试设备将于年内推出。
Project Astra:跨语言对话的 " 无感翻译 "
作为实时语音翻译技术的集大成者,Google Meet 现已支持英语与西班牙语的即时互译,未来几周将扩展至更多语种。演示中,系统精准还原了演讲者的语气、节奏甚至表情
Project Marina:智能代理的 " 操作系统 "
定位为 " 网络交互智能体 " 的 Project Marina,已具备多任务处理和教学 - 重复学习能力。皮查伊展示了其如何同时管理 10 项任务,并通过一次演示学习完成复杂操作。该技术将通过 Gemini API 开放给开发者,首批合作伙伴包括 Automation Anywhere 和 UiPath,预计夏季面向更广泛用户推出。
智能体生态:从工具到伙伴的进化
更深远的意义在于谷歌推动的 " 智能体互联计划 ":通过开放的 Agent-to-Agent 协议和 Model Context Protocol,不同智能体可共享数据与工具,构建协作生态。皮查伊强调:" 这不仅是技术升级,更是对‘人机协作’模式的重新定义。"
Gemini 2.5:AI能力系统性跃升,开启多模态智能纪元
Gemini 2.5 Pro经过近期优化,在自然语言理解、代码生成、复杂推理及多模态处理(图像 / 视频)等领域全面突破性能边界,成为行业标杆。而轻量化模型Gemini 2.5 Flash则以 22% 的推理速度提升和更低资源消耗,提供与 Pro 相近的能力,计划 6 月率先开放开发者接入,重塑效率与成本的平衡。
语音交互革新:全新文本转语音(TTS)技术支持 24 种语言无缝切换,可精准模拟人类语音中的情绪细节(如语速、语调变化),实现 " 情感化语音角色 " 生成。
视觉到 3D 的极速转化:用户仅需上传草图并输入提示词,系统即可在数十秒内自动解析图像、生成可交互的3D 模型并部署上线,全程无需专业 3D 开发知识。
此外,谷歌推出AI 编程代理 "Rose",支持从代码生成、错误修复到版本迁移的全流程自动化,标志着 AI 从辅助工具进化为 " 异步执行开发者 "。现场演示的文本生成视频技术结合新一代低延迟架构,生成效率较前代提升 5 倍,预示生成式 AI 在视频创作领域的爆发潜力。
强化 " 深度思考 ",加速构建"世界模型"生态
谷歌表示,Gemini 2.5 Pro的核心突破之一,就是引入了 " 深度思考 "(Deep Think)能力,标志着AI向通用智能迈出关键一步。
作为原生多模态架构,Gemini 2.5 Pro 可跨文本、图像、音视频进行联合推理。更关键的是,谷歌正基于此构建 " 世界模型 " ——一个能实时映射物理规则、预测环境变化的虚拟智能体。现场演示中,Gemini 仅凭简单草图生成可交互 3D 场景,并通过 Gemini Robotics 子模型驱动机械臂完成动态抓取任务,展现 AI 从认知到行动的闭环能力。
从信息索引到智能助手,Google搜索在AI模式下走向"质变"
Google强调,AI模式并非独立产品,而是搜索体系的进化试验场。其终极目标是将搜索引擎从 " 信息检索工具 " 升级为 " 思考伙伴 " ——用户不再被动接收链接,而是与具备判断力、执行力的智能体协同决策。当搜索能自主拆解问题、整合跨平台数据、预判用户需求时,一场关于人机协作的范式革命已悄然到来。
技术层面,AI 模式通过Query Decomposition技术实现 " 查询拆解 ":系统自动识别需深度推理的问题,拆分为数百个子任务,调用定制化 Gemini 模型执行海量搜索,最终生成结构化报告——融合网页、知识图谱、地图等数据,附带来源验证、对比图表及可视化分析。例如,用户可一键获取球员使用新型球棒后的击球率趋势图,或跨平台比对红袜队比赛门票价格并完成订票流程。
除了文本和数据的处理能力,AI 模式还全面升级了视觉搜索体验。Google Lens 的月活跃用户已超 15 亿,而 AI 模式引入了 Project Astra 的实时视觉交互功能—— " 实时搜索 "。用户可以通过镜头直接展示问题场景,如 DIY 项目、科学实验或复杂设备操作,搜索引擎则仿佛 " 视频通话中的助手 ",在实时画面中给出精准指引。通过 AI 眼镜的多模态互动,正成为"下一代搜索"的关键入口。
图像与视频生成的质变:Imagen 4 与 Veo 3 齐发
在生成式内容方面,Google带来了新一代图像模型Imagen 4和视频模型Veo 3。Imagen 4 强化了图文混排、细节表现和构图逻辑,能够根据简单的描述生成用于音乐节、品牌活动等场景的高质量海报。而 Veo 3 则实现了视频生成的一个质变——首次引入 " 原声音频生成 "(Native Audio Generation),不仅画面栩栩如生,背景音效与角色对话也可一并生成,实现真正意义上的沉浸式内容生产。
谷歌还首次揭示了 Gemini Agent 模式下的多模态操作方式。这是一个可在 Chrome 中工作、支持多任务协作的 AI 代理,能够实时理解网页语境、对比评论、自动整理信息,为用户提供上下文感知的帮助。
会上,谷歌还发布了Lyria,这是一款能够生成高保真、专业级音频的新模型。无论是独唱还是合唱,其生成的音乐在细节和情感表达上都展现出强烈的感染力。
这一技术的扩展不仅是技术性的进步,更是回应社会对于 AI 内容来源可追溯性的迫切需求。谷歌强调,他们正扩大与全球合作伙伴的协作,以将此类可识别机制推广到更广泛的生成式媒体生态中。
颠覆创意生成范式,AI 视频创作新引擎 Flow
作为活动的一大亮点,谷歌发布了一款专为创意人士打造的AI视频制作工具—— Flow。这款工具集成了Veo、Imagen和Gemini,是一个从灵感萌芽到成片输出的完整内容生产引擎,意在重塑创意素材的生成方式。
创作过程中,用户不仅可以添加镜头,更能定义每一个镜头的情绪、节奏与画面风格。Flow具备保持风格一致性的能力,使得即便是由多个生成模块构建的作品也具有统一的美术表现力。更重要的是,所有素材都可以被导出至主流视频剪辑软件,创作者仍然拥有对最终成品的完全掌控。
谷歌强调,Flow 不是在取代导演与编剧的角色,而是在构建一种新的创作流程:灵感涌现时,AI 可以立即响应;创作陷入瓶颈时,AI 可以提供提示和延展。从某种意义上,它帮助创作者 " 看见 " 那些尚未成形的想法。
在 AI 的辅助下,故事结构在眼前展开,角色仿佛拥有了自己的生命。创作者从 " 努力去做 ",逐渐转变为 " 纯粹地表达 ",这也许正是生成式 AI 对创意产业最深远的改变。
Gemini进入 XR 设备,智能眼镜走向量产
继 Android 16 与 WearOS 6 的发布后,谷歌正式将 AI 助手 Gemini 嵌入到更广泛的设备形态,从手机走向手表、汽车仪表盘、电视,再一步扩展到全新的 XR 平台。
这一战略正在由谷歌与三星、高通联合推进。首款搭载 Android XR 的设备是三星的 Project Moohan 头戴装置,通过 Google Maps XR 功能与 Gemini 整合,用户只需发出语音指令,便能沉浸式 " 瞬移 " 到全球任意地点。在体育应用中,例如 MLB,用户可以仿佛置身球场,实时获取球员数据和赛事分析。
通过与 Gemini 联动,这款眼镜具备 " 所见即搜索 " 的能力。用户看见一个咖啡杯上的 Logo,即可让 Gemini 识别品牌、显示地图、预约时间,甚至播放相关音乐。这一切,都无需动手操作。现场还展示了实时翻译功能,不同语言的对话被同时翻译为英文浮现在镜片中,打破语言壁垒。
目前,首批智能眼镜产品已进入可信测试阶段,并将在近期开放开发者平台。谷歌还宣布将与时尚眼镜品牌 Gentle Monster 和 Wabby Parker 合作,打造首批基于 Android XR 的消费级智能眼镜,通过可日常佩戴的时尚配件,打入主流市场。
AI普惠时代的"谷歌答案":下一步的AI,不再抽象
" 十年前,我们谈论 AI 的可能性;今天,我们正在见证其从理论到实践的转化 "。可以见得,谷歌正通过整合基础模型研发、三维交互技术、智能代理系统及个性化服务等领域能力,构建全栈 AI 技术架构。
不难预见,随着其生态系统向硬件终端的持续渗透,人工智能与物理世界的深度融合进程已呈现明确的发展轨迹,将为产业价值的提升带来更多确定性。