
相比去年 11 月发布的 Gemini 3 Pro,这次版本号只增加了 "0.1",但从官方披露的测试结果来看,3.1Pro 在多模态生成和深度推理上跃升了一大步。
最直观的变化来自推理能力的跃升。在 ARC-AGI-2 测试中,Gemini 3.1 Pro 得分达到 77.1%,而 Gemini 3 Pro 为 31.1%,性能直接翻倍以上。在衡量跨学科复杂问题能力的 Humanity ’ s Last Exam 中,Gemini 3.1 Pro 得分 44.4%,不仅高于前代的 37.5%,也超过了 GPT-5.2 的 34.5%。


从使用路径来看,谷歌正在继续强化其平台化布局。开发者目前可以通过 Gemini API、Google AI Studio、Gemini CLI、Android Studio(预览版)等工具调用模型;企业侧则接入 Vertex AI 和 Gemini Enterprise;普通用户则可在 Gemini App 和 NotebookLM 中直接使用,其中 Pro 和 Ultra 订阅用户拥有更高额度。
如果说榜单成绩代表能力上限,那么官方展示的案例则更能体现模型能力的进化。
在一个演示中,Gemini 3.1 Pro 生成了一套完整的交互式 3D 椋鸟群舞系统:模型不仅编写了实时渲染的视觉代码,还设计了基于手部追踪的交互逻辑,并生成随鸟群运动动态变化的音乐。最终呈现的并非单一代码片段,而是一个融合视觉、动作与声音的沉浸式体验原型。

从官方对比效果来看,Gemini 3.1 Pro 在动作连贯性、空间稳定性以及色彩表现上,相较 3.0 Pro 也有明显提升,多模态生成正逐步从 " 可用 " 走向 " 可控 "。




去一年,大模型竞争的核心指标经历了一次变化:从最初的参数规模,到榜单分数,再到如今的 " 性能 / 成本比 "。Gemini 3.1 Pro 的发布,很大程度上体现了这一趋势——真正的竞争不再是谁更强,而是谁更便宜地做到同样强。
模型进化的速度仍然让人感到不真实。一位开发者在社区感慨:" 一周前,Claude 还是最好的模型;下一周,又换了一个新的冠军。"