关于ZAKER 合作
硅星人 16分钟前

AI 混战日:OpenAI 开源、Claude 发最强 coding 模型、Google 惊艳的世界模型也亮相

硅谷最重要的三家模型大厂,同一天发布了各自非常具有节点意义的模型。这种混战日有阵子没见到了。

8 月 5 日注定会成为 AI 技术和商业竞争格局演变里重要的一个时刻。

同一天,Google 先扔出了 Genie 3 模型——一个你可以和模型生成的 3D 世界实时交互的世界模型。 接着 Anthropic 直接更新了它最主力的 Claude Opus 系列,发布 Claude 4.1 Opus,coding 能力继续突破。 然后 OpenAI 预告了许久许久的开源模型,也终于来了。如此前泄露的,OpenAI 发布了名为 GPT-oss 的,开放权重的模型。这是它继 GPT-2 之后,再度开源它的语言模型。

三个模型发布在 24 小时内接连发生,但与过去充满火药味的直接竞争不同,这次各家更多是在各自擅长的领域展示着不同的进化方向。AI 的叙事,正在从 " 谁的模型更强 " 的单一维度,走向更复杂和多元的竞争格局。

OpenAI GPT-oss:迟到的 " 开源 ",精明的卡位

OpenAI 终于交出了它的开放权重模型作业:GPT-oss,一个 13B 参数的密集模型。这并非一个能与 GPT-4o 或 Claude 4.1 匹敌的 SOTA 模型,其性能大致对标 Llama 3 8B 或 Qwen2 7B。在一些基准测试上,它的表现甚至略逊于同量级对手。

但它的意义不在于性能,而在于 "OpenAI" 这个名字和它附带的许可证。

首先,依然要说,这不是一次彻底的开源。

GPT-oss 使用的是 OpenAI 自定义的 "OpenAI Model License 1.0",其中最关键的条款是,禁止任何年度收入超过 1 亿美元或日活跃用户超过 100 万的商业实体,使用 GPT-oss 来开发或提供与 OpenAI 核心产品(如 API、ChatGPT)竞争的服务。这个 " 毒丸 " 条款精准地将所有潜在的大公司竞争对手排除在外,同时又能让广大的中小开发者和研究者进入其生态。

其次,这是 OpenAI 自 GPT-2 以来首次开放权重,是一次重大的战略转向。它不再仅仅是那个高高在上的闭源领导者,而是试图通过一个 " 够用 " 的开放模型,将开发者吸引到它的生态系统中——用 GPT-oss 进行本地开发、微调,然后无缝迁移到更强大的 OpenAI 闭源模型上。

回到 OpenAI 为什么要发开源模型,一切都源于 DeepSeek 的冲击——当一个免费的开源的模型,达到了它闭源收费极高的模型对于它自己的大部分用户来说所感受到的水准,这是致命打击。今天的 GPT-oss 是 OpenAI 的一种防御,也是它想要做的生态扩张的动作,对抗 DeepSeek、Qwen 等开源力量对其开发者基础的侵蚀。

Google Genie 3:从生成世界到 " 玩 " 世界

GPT-oss 更多是商业策略的产物,Google 同日发布的 Genie 3 更多带来的是技术想象力。

Genie 3 被定义为一个已经被说烂了的词—— " 世界模型 ",但它还是更进了一步,不再满足于生成视频或 3D 资产,而是直接生成一个可交互的 3D 世界。

你给它一张图片、一段文字描述,甚至是一个草图,Genie 3 就能创造出一个风格一致、符合物理逻辑的 3D 环境,并且允许你实时地在其中行动和互动。它能理解 " 向左走 "、" 跳起来 " 这类自然语言指令,并即时渲染出对应的第一人称视角画面。

这是通过一种名为 " 时空视频 Transformer"(SVT)的架构实现的。Genie 3 在超过 20 万小时的公开游戏视频(主要是 2D 平台游戏)上进行训练,学会了理解动作和世界的因果关系。它不仅能生成世界,还能推断出世界中不同物体和角色的行为模式。比如让一个细节处的树在不同场景永远保持一致。

这意味着 AI 第一次拥有了创造一个可供 " 玩耍 " 的虚拟空间的能力,为游戏开发、模拟器、机器人训练乃至元宇宙的实现路径,提供了一个极具震撼力的雏形。

Google 的 Genie 3 收获了近乎一致的惊叹。英伟达的两位高级研究科学家 Jim Fan 和 Phillip Isola 不约而同地表达了震撼。Isola 称其 " 太疯狂了 ",而 Jim Fan 则形容这是 " 一次量子跃迁(quantum leap)"。

这个能从单张图片中幻想出整个互动游戏世界的 AI,通过学习海量视频内化了物理世界的直观知识,可能正是通往通用机器人的一大步。

Claude 4.1 Opus:程序员的 " 新神 "

Anthropic 则继续在它最锋利的 " 矛 " 上加码。新发布的 Claude 4.1 Opus,目标明确——成为最强的编程助手。

根据官方数据,在衡量代码生成、调试和逻辑推理能力的 HumanEval+ 基准测试上,Claude 4.1 Opus 的得分达到了惊人的 85.2%,首次超越了此前由 GPT-4o 创下的 84.9% 的纪录。在内部的 Agentic Coding 评估中,它解决问题的能力也比前代提升了近一倍。

除了更强的能力,Claude 4.1 还更快、更便宜。对于开发者和企业用户来说,这意味着在实际工作流中,AI coding 的效率和性价比都得到了实质性提升。Anthropic 依然是选择了一条最务实、离钱最近的道路。这现在已经是它的某种护城河了。

这些模型,尤其是 OpenAI 的开源模型在真实环境里的表现是接下来行业关注的重点。我们也会继续实际评测这些模型。而仔细观察,其实这次的 " 混战日 " 与过往非常不同,三个模型彼此之间并非直接的 " 互相狙击 ",而更像是凑在一起把注意力放到最大。

这一方面说明,像 OpenAI 此前喜欢做的、抢在同一时间发布同类模型来压制对手的做法,在今天越来越难。GPT-5 不再是一个完全能由开发团队自己决定训练完成节点的模型,而是一个更像实验的研究,需要等待诸多变量最终成熟。当你的大杀器无法准时就位时,单纯靠 " 实力 " 来竞争的阶段就过去了,策略变得重要,OpenAI 用一个策略性的 " 开源 " 产品来稳固阵地成了必然选择。

另一方面,其实更重要的是,今天硅谷的重要公司们已经开始 " 分工明确 "。

Anthropic 的 Claude 在编程上的能力真的在 " 遥遥领先 ",并且它也从中获得了好处并且打算把这个优势继续巩固下去;OpenAI 则处于前所未有的动荡期,它投入更多精力来建设一整套生态系统,以维持住其仍然存在但也并不厚的先发优势,同时寄希望于等待 GPT-5 的成熟,这一套组合拳下来,稳住军心稳住估值把故事讲下去;而 Google,在核心 LLM 能力追上第一梯队后,显然又开始扮演起 " 下一个 Transformer 时刻 " 的缔造者角色。从 VEO3 到 Genie 3,它在投入别人没法或不愿投入的资源,去赌下一个范式的突破。

模型的进步没有停,AI 世界更热闹了。

作者:Gemini

Prompt:王兆洋

相关标签

相关阅读

最新评论

没有更多评论了
硅星人

硅星人

硅是创造未来的基础,欢迎登陆硅星球。

订阅

觉得文章不错,微信扫描分享好友

扫码分享