硅谷最重要的三家模型大厂,同一天发布了各自非常具有节点意义的模型。这种混战日有阵子没见到了。
8 月 5 日注定会成为 AI 技术和商业竞争格局演变里重要的一个时刻。
同一天,Google 先扔出了 Genie 3 模型——一个你可以和模型生成的 3D 世界实时交互的世界模型。 接着 Anthropic 直接更新了它最主力的 Claude Opus 系列,发布 Claude 4.1 Opus,coding 能力继续突破。 然后 OpenAI 预告了许久许久的开源模型,也终于来了。如此前泄露的,OpenAI 发布了名为 GPT-oss 的,开放权重的模型。这是它继 GPT-2 之后,再度开源它的语言模型。
三个模型发布在 24 小时内接连发生,但与过去充满火药味的直接竞争不同,这次各家更多是在各自擅长的领域展示着不同的进化方向。AI 的叙事,正在从 " 谁的模型更强 " 的单一维度,走向更复杂和多元的竞争格局。
OpenAI GPT-oss:迟到的 " 开源 ",精明的卡位
OpenAI 终于交出了它的开放权重模型作业:GPT-oss,一个 13B 参数的密集模型。这并非一个能与 GPT-4o 或 Claude 4.1 匹敌的 SOTA 模型,其性能大致对标 Llama 3 8B 或 Qwen2 7B。在一些基准测试上,它的表现甚至略逊于同量级对手。
首先,依然要说,这不是一次彻底的开源。
GPT-oss 使用的是 OpenAI 自定义的 "OpenAI Model License 1.0",其中最关键的条款是,禁止任何年度收入超过 1 亿美元或日活跃用户超过 100 万的商业实体,使用 GPT-oss 来开发或提供与 OpenAI 核心产品(如 API、ChatGPT)竞争的服务。这个 " 毒丸 " 条款精准地将所有潜在的大公司竞争对手排除在外,同时又能让广大的中小开发者和研究者进入其生态。
其次,这是 OpenAI 自 GPT-2 以来首次开放权重,是一次重大的战略转向。它不再仅仅是那个高高在上的闭源领导者,而是试图通过一个 " 够用 " 的开放模型,将开发者吸引到它的生态系统中——用 GPT-oss 进行本地开发、微调,然后无缝迁移到更强大的 OpenAI 闭源模型上。
Google Genie 3:从生成世界到 " 玩 " 世界
GPT-oss 更多是商业策略的产物,Google 同日发布的 Genie 3 更多带来的是技术想象力。
Genie 3 被定义为一个已经被说烂了的词—— " 世界模型 ",但它还是更进了一步,不再满足于生成视频或 3D 资产,而是直接生成一个可交互的 3D 世界。
Google 的 Genie 3 收获了近乎一致的惊叹。英伟达的两位高级研究科学家 Jim Fan 和 Phillip Isola 不约而同地表达了震撼。Isola 称其 " 太疯狂了 ",而 Jim Fan 则形容这是 " 一次量子跃迁(quantum leap)"。
Claude 4.1 Opus:程序员的 " 新神 "
Anthropic 则继续在它最锋利的 " 矛 " 上加码。新发布的 Claude 4.1 Opus,目标明确——成为最强的编程助手。
根据官方数据,在衡量代码生成、调试和逻辑推理能力的 HumanEval+ 基准测试上,Claude 4.1 Opus 的得分达到了惊人的 85.2%,首次超越了此前由 GPT-4o 创下的 84.9% 的纪录。在内部的 Agentic Coding 评估中,它解决问题的能力也比前代提升了近一倍。
这些模型,尤其是 OpenAI 的开源模型在真实环境里的表现是接下来行业关注的重点。我们也会继续实际评测这些模型。而仔细观察,其实这次的 " 混战日 " 与过往非常不同,三个模型彼此之间并非直接的 " 互相狙击 ",而更像是凑在一起把注意力放到最大。
另一方面,其实更重要的是,今天硅谷的重要公司们已经开始 " 分工明确 "。
Anthropic 的 Claude 在编程上的能力真的在 " 遥遥领先 ",并且它也从中获得了好处并且打算把这个优势继续巩固下去;OpenAI 则处于前所未有的动荡期,它投入更多精力来建设一整套生态系统,以维持住其仍然存在但也并不厚的先发优势,同时寄希望于等待 GPT-5 的成熟,这一套组合拳下来,稳住军心稳住估值把故事讲下去;而 Google,在核心 LLM 能力追上第一梯队后,显然又开始扮演起 " 下一个 Transformer 时刻 " 的缔造者角色。从 VEO3 到 Genie 3,它在投入别人没法或不愿投入的资源,去赌下一个范式的突破。
模型的进步没有停,AI 世界更热闹了。
作者:Gemini
Prompt:王兆洋