72 小时,AI 领域发生了一次超级对撞。
4 月 21 日,OpenAI 更新了 ChatGPT 的图像生成,代号 GPT-image-2。4K 分辨率、多语言文字渲染、思维链驱动生图,图像生成这回是真能干活了。
4 月 23 日,OpenAI 又放了一颗炸弹:GPT-5.5,代号 "Spud"。
隔了一天,DeepSeek 亮出了 V4 系列。两款 MoE 模型:V4-Pro(1.6 万亿参数,49B 激活)和 V4-Flash(284B 参数,仅 13B 激活)。
DeepSeek 又一次演示了什么叫极致效率:百万 token 上下文,FLOPs 只有上代 V3.2 的 27%,KV cache 压到了 10%。
三天时间,两家中美顶级 AI 初创撞到了一起,除了市场竞争,更是两种 AI 哲学的碰撞。
三件事,拆开说
先把信息量拉满,方便大家知道发生了啥。
OpenAI 在 4 月 21 日上线的 GPT-image-2 模型,表面看是一次图像功能升级,但细看会发现野心不小:
4K 原生分辨率,中文不再是乱码,海报和社交媒体素材可以直接 AI 出图,模型还会 " 先想构图逻辑再动手画 ",甚至能联网查资料,
单拎出来看,每项都是不小的进步,放在一起,指向的东西就更大:OpenAI 不想让图像生成继续当一个独立小工具,它要把这块能力融进 GPT 的整体闭环里。
两天后的 GPT-5.5 发布,让上面这个判断彻底坐实了。
5.5 的重点不在某个单项测试跑了多少分(虽然确实多数都超了 5.4),重点在系统层面的任务执行:
Deep Research 这次能分步执行,自己完成多轮调研,一次对话里也能切代码、数据、文件不同任务。Codex 也统一到了一个模型,直接在对话里理解代码库、修 bug、写测试。
Sam Altman 发布时说了句话,挺关键的:"GPT-5.5 is less about being smarter, and more about being useful."
不是更聪明,是更好用。全面对标竞争对手 Anthropic 转向 "AI 时代的操作系统 "。
DeepSeek 这边,V4 的论文写了 58 页,技术细节极其扎实。不过一句话总结的话:
V4 想证明的事情很简单,不用堆更多 GPU,换个更聪明的架构 AI 性能同样可以提升。
几个核心数据:
V4-Pro:1.6 万亿总参数,49B 激活,支持 100 万 token 上下文
V4-Flash:284B 总参数,只激活 13B。消费级硬件跑得动
100 万 token 场景下,FLOPs 只有 V3.2 的 27%,KV cache 只有 10%
V4-Flash 的 13B 激活参数,benchmark 已经打赢了 V3.2 的 37B 激活。
算力砍掉三分之二,效果反而更好。
撑起这些成果的,是几个技术点,CSA + HCA 混合注意力负责压长上下文成本,mHC 解决深层网络信号衰减,Muon 优化器让训练更快收敛,FP4 量化感知训练则继续降低部署成本。
这部分已经有不少人专业解读,我们就不多说了。
两条路,两种逻辑
把三个发布摊开来看,表面是三个独立的产品更新。但仔细想想,底下跑着两套完全不同的逻辑。
OpenAI 在干嘛?无论它还有没有 AGI(通用人工智能)的梦想,它一定有个超级 APP 的野心。
GPT-5.5 搞定知任务:推理、编程、分析、搜索、创作。Images 2.0 搞定视觉生成。再加上语音、Sora 做视频、Codex 做代码执行……
OpenAI 想把所有能力都塞进一个产品里:用户别管 AI 怎么工作的,说你要什么就行,ChatGPT 全包了。
商业上看,这就是 " 超级 App" 的思路,一个入口解决一切。
DeepSeek 呢?仍然在极致效率的道路上狂奔。
V4-Pro 追求的是每个激活参数的产出最大化。V4-Flash 追求的是最小计算预算下的最强效果。百万 token 上下文则是加量不加价,成本还要降到原来的十分之一。
DeepSeek 的理念也很直接:AI 真正普及,靠的不只是模型更强,是推理更便宜。
打个比方的话,OpenAI 在做 "AI 的 Windows",功能拉满,什么都能干,但对硬件要求也高。DeepSeek 更像 "AI 的 Linux",精简高效,开源开放,能在更多地方跑起来。
被忽略的事:Images 2.0 的真价值
回头说说 OpenAI,不少人被 Images 2.0 更强的图片生成能力迷住,没有看到它真正的价值。
Image2.0 其实是 GPT-5.5 多模态能力闭环里的一块关键拼图。
一个很简单的场景:你让 GPT-5.5 帮你做一份市场分析报告。它自己搜资料、整理数据、做分析,写到需要配图的地方,直接调 Images 2.0 生成数据可视化、概念图、信息图。
整个过程在一次对话里完成,你不用打开任何其他工具。
这才是 " 多模态闭环 " 真正值钱的地方。关键不在于 "AI 能画画了 ",在于 AI 在干活的过程中自己判断什么时候需要出图,出图也不只是配套,还能融入工作流之中。
这件事为什么关键?很多工作卡住,并不是大家没有想法,是没法把想法表达出来。
你说 " 我们要做一场 AI 沙龙 ",别人脑子里可能是酒店会议厅,也可能是路演发布会。
你说 " 用户反馈里有机会 ",团队未必知道机会在哪。
你说 " 我想做一套 AI 提示词速查卡 ",听起来像一句随口一说的点子。
现在你可以让 Image2 直接生成原型图,剩下的任务交个下一步的 AI 执行,你想想看是不是一切都不一样了?
以下是 Tina 用 Image2 制作产品推广图,接着让另一款 AI 产品生产的产品视频!
如果你想学会如何使用,迎观看周日的前哨 AI 小课。
那到底谁代表未来?
看到这儿,直觉可能是:OpenAI 全面碾压,DeepSeek 只是效率优化。
没这么简单,我们必须看到 AI Agent 是所有人都看好的大方向,那 Agent 到底需要什么?
第一,长上下文。 一个 Agent 执行复杂任务的时候,得记住完整的工具调用历史、中间结果、用户偏好、环境状态,V4 的百万 token,就是冲着这个场景去的。
第二,要便宜。 Agent 不是用一次就关的东西,它要一直跑、一直想、一直花钱。V4-Flash 的 13B 激活加上 FP4 量化,就是在压这个成本。
第三,工具调用。 V4 搞了一个叫 Interleaved Thinking(交织思考),每次工具返回结果后,模型先做一段内部推理,再决定下一步。
这跟 GPT-5.5 的 " 端到端任务执行 " 目标类似,但路径完全不同。
GPT-5.5 靠的是系统级集成,内置搜索、内置代码执行、内置图像生成,开箱即用。V4 靠的是开放的工具调用协议加交织推理,更适合定制化场景。
所以 " 谁赢了 " 这个问题本身就问错了。这不是零和游戏。
GPT-5.5 为自己在普通用户上扳回一局,几乎不用犹豫,说你要什么就能干活,一定会迎来一些新用户。
开发者和企业选 DeepSeek V4 也有充足的理由:能自己部署、能定制、能控制成本。
两条路,解决不同的问题。
这次的 AI 进步你不可错过
回看这 72 小时,最让人在意的不是哪个具体的技术突破,是产业逻辑变了。
2024 年比的是谁的模型大;2025 年比的是谁的推理强;到了 2026 年,大家开始比谁能让 AI 真正被用起来。
OpenAI 把所有能力塞进一个产品,做超级应用;DeepSeek 把最强的能力以最低的成本放出去,做基础设施。
两家的碰撞不止比胜负,更重要的是 AI 进步对传统技能、岗位、职业的颠覆。
当 DeepSeek V4 也加入 Agent 的大潮流,管理你的 AI 员工才是最重要的技能!
想要掌握最前沿的技术和方法吗?千万不要错过周日的前哨 AI 小课。