今天，姚顺雨在 DeepSeek V4 前交卷了

智东西

作者 | 江宇

编辑 | 心缘

姚顺雨第一场 " 大考 " 交卷！

智东西 4 月 23 日报道，今日，腾讯发布并开源新一代大模型混元 Hy3 preview，这是混元体系重建后的首个旗舰版本，也是姚顺雨掌舵混元后首次对外亮相的模型成果。

新一代 Hy3 preview 是混元迄今最智能的模型，该模型采用快慢思考融合的混合专家架构，总参数 295B，激活参数 21B，支持最长 256K 上下文。

从测评结果来看，Hy3 preview 在复杂推理、指令遵循、代码与智能体能力等关键维度实现整体提升。在复杂推理任务中，其在 FrontierScience-Olympiad 拿下 70.0 分、IMO Answer Bench 达到 84.3 分，整体表现已超过 GLM-5、Kimi-K2.5，接近 Gemini 3.1 Pro 与 GPT-5.4，并在清华求真书院数学博士资格考试中取得 88.4 分的国内最高成绩。

在代码与搜索能力上，其在 SWE-Bench Verified 达到 74.4%，已逼近 GLM-5 与 Kimi-K2.5，在 Terminal-Bench 2.0、BrowseComp、WideSearch 等基准中也进入第一梯队，但与 Claude Opus-4.6 等顶级闭源模型仍有差距。

在 ClawEval、WildClawBench 等 Agent 评测中，Hy3 preview 的综合执行能力明显提升。在涵盖 16 项基准的综合评测中，其平均得分约 56 分，显著高于上一代 Hy2（约 35 分），并进入当前主流 Agent 模型的竞争区。

目前，Hy3 preview 已率先接入腾讯云、元宝、ima、CodeBuddy、WorkBuddy、QQ 等多条核心产品线。另外，Hy3 preview 还支持接入流行的开源智能体产品，如 OpenClaw、OpenCode、KiloCode 等，并已上架腾讯云大模型服务平台 TokenHub。

在推理效率与成本层面，其首 token 延迟降低 54%、端到端时长下降 47%，整体推理效率提升 40%；API 价格进一步下探至输入最低 1.2 元 / 百万 tokens、输出最低 4 元 / 百万 tokens，并提供最低 28 元 / 月的 Token 套餐，主打一个 " 高性价比 "。

而近期，国内外大模型赛道可谓是 " 动作频频 "。

上周五，Anthropic 发布了新一代旗舰模型 Claude Opus 4.7；4 月 20 日，阿里发布了其下一代旗舰模型的早期预览版 Qwen3.6-Max-Preview；4 月 21 日，Kimi 正式发布并开源旗舰模型 K2.6；4 月 23 日，小米 MiMo 大模型家族一口气官宣 4 款新模型，其中旗舰推理模型 MiMo-V2.5 也开启公测。

而行业最期待的 " 开源猛兽 " DeepSeek V4 也有望在本周内降临。这一波国内外旗舰模型的集体 " 上桌 "，或意味着大模型格局的洗牌时刻即将到来。

面对如此激烈的神仙打架局面，定位 " 全面实用性 " 的 Hy3 preview 究竟具备怎样的真实战斗力？我们第一时间对其进行了实测。

开源地址：

https://github.com/Tencent-Hunyuan/Hy3-preview

一、挑战复杂 SVG 与互动 HTML，代码与逻辑能力一手实测

为了全面验证其能力，我们从逻辑推理、前端代码生成以及多模态表现等维度，对 Hy3 preview 进行了实测。

首先，我们抛出了两个经典的 " 陷阱题 "。

提示词：我要去洗车，洗车的地方离家就 100 米，我是开车去呢，还是走着去呢？

提示词：父亲和母亲可以结婚吗？

实测结果来看，Hy3 preview 不负众望，成功完成了测试并准确绕过了文字陷阱。对于洗车问题，模型还幽默地补充了 " 代驾取车 " 的特殊情况。

在代码生成维度，我们首先选择了一个高难度的 SVG 绘制任务。

提示词：生成一个 Xbox 360 控制器的 SVG 代码。

Xbox 360 控制器不仅具有复杂的人体工学非对称曲线，还包含了丰富的摇杆与按键布局。这能极具针对性地考验大模型在没有视觉反馈的情况下，对二维空间坐标、图层叠加关系及几何数学计算的精准控制能力。

从实测结果来看，Hy3 preview 在首次生成时遭遇了失败，虽然系统很快进行了重新生成，但最终的视觉效果并不理想。摇杆、按键等核心组件出现了明显的坐标错位。

接下来，我们进一步测试了其生成带有交互逻辑的复杂 HTML 代码的能力。

提示词：用一个 HTML 代码块编写一个 3D 精灵球，它应该是可交互的，并且在打开时会有随机的宝可梦从里面出来。

实测发现，Hy3 preview 输出的精灵球并没有达到预期的 3D 视觉效果，整体呈现依然比较粗糙。在交互体验层面，当触发召唤宝可梦的动作时，前端图层渲染逻辑出现了瑕疵，导致精灵球的 UI 元素直接遮挡了内部弹出的精灵形象。

最后一个体验案例是创建一个像素风格的前端页面。

提示词：创建一个骑自行车的鹈鹕的 3D 像素艺术作品。尽可能将场景刻画得非常细致，注意主体模型上的每一个小细节，同时也要考虑周围环境的细节。在一个 HTML 代码块中完成制作，将代码写得足够优秀，以展示你的水平超越其他作品。我赋予你完全的创作自由，尽情发挥。

在这一案例中，Hy3 preview 在静态结构的理解上表现尚可，鹈鹕的身体结构与自行车形态也相对完整。但遗憾的是，代码生成的画面中鹈鹕并没有如预期般呈现出动态骑行效果，且在细节刻画上缺失了自行车链条这一部件。

总体而言，Hy3 preview 在代码框架构建和基本意图理解上展现出了不错的潜力。但在涉及复杂空间坐标系、前端深度交互渲染时，仍需持续进化与打磨。

除了图形与交互测试，我们还验证了 Hy3 preview 在财务分析上的表现。我将腾讯 2023、2024、2025 年的财报输入模型，让它生成财报分析报告。

模型能够准确提取核心财务数据，并呈现三年的同比变化趋势。同时，按年报披露的业务分部，生成收入结构对比图和业务板块占比变化图，整体分析报告清晰可读，数据整合能力令人印象深刻。

总体而言，Hy3 preview 在代码框架构建、基本意图理解及数据分析上展现出了不错的潜力。但在涉及复杂空间坐标系、前端深度交互渲染时，仍需持续进化与打磨。

二、多项核心基准跻身第一梯队，Agent 能力逼近主流旗舰模型

从测评表现来看，Hy3 preview 在多个关键能力维度上进入第一梯队。

以长上下文与指令遵循为例，在自建的 CL-bench 与 CL-bench Life 评测中，其得分分别达到 22.8 和 15.7，明显高于 GLM-5、Kimi-K2.5 等同类模型，但与 GPT-5.4 级别模型相比仍存在差距，整体处于开源阵营前列位置。

在复杂推理能力上，Hy3 preview 在 FrontierScience-Olympiad 中取得 70.0 分，高于 GLM-5 和 Kimi-K2.5，接近 Gemini 3.1 Pro 与 GPT-5.4。

在 IMO Answer Bench 上达到 84.3 分，超过 Kimi-K2.5 和 GLM-5，但仍低于 Gemini 3.1 Pro 与 GPT-5.4。

在清华求真书院数学博士资格考试中，其得分为 88.4，显著高于 Kimi-K2.5 和 GLM-5，但与顶级闭源模型仍有差距；在 CHSBO 2025 生物竞赛中，其 87.8 的表现同样领先多数开源模型，接近 GPT-5.4 的水平。

代码与 Agent 能力是其提升最明显的方向。

在后端工程任务集 Hy-Backend 上，Hy3 preview 得分达到 54.7，超过 GLM-5 和 Kimi-K2.5；在更贴近用户交互的 Hy-Vibe 评测中，其表现同样领先 Kimi-K2.5；在高难度软件工程任务 Hy-SWE Max 上，Hy3 preview 达到 30，明显高于 Kimi-K2.5、接近 GLM-5，但与 Claude Opus-4.6 仍存在差距。

这类内部评测更强调 " 真实开发环境中的完成能力 "，相比标准化榜单，更能反映模型在复杂工程任务中的实际可用性。

在 SWE-Bench Verified 上，Hy3 preview 达到 74.4%，已经逼近 GLM-5 和 Kimi-K2.5，但与 Claude Opus-4.6 仍有差距；在 Terminal-Bench 2.0 上，其 54.4% 的成绩超过 GLM-4.7 等模型，进入第一梯队。

在搜索与信息整合能力上，Hy3 preview 在 BrowseComp 上达到 67.1%，接近 GLM-5 与 Kimi-K2.5；在 WideSearch 上取得 70.2%，超过 GLM-5，但仍低于 Claude Opus-4.6。

这类能力直接决定模型在开放环境中的 " 找信息 + 做判断 " 能力，是 Agent 落地的关键基础。

进一步看整体 Agent 能力，在涵盖 16 项基准的综合评测中，Hy3 preview 以约 56 分的综合得分，显著高于 Hy2（约 35 分），并与 GLM-4.7、DeepSeek-V3.2 等模型拉开差距，接近 GLM-5 与 Kimi-K2.5 所在区间。

在更细分的 Agent 专项评测中，Hy3 preview 也呈现出类似趋势。在 WildClawBench（text-only）中，其得分为 45.3，高于 Kimi-K2.5、接近 GLM-5；在 ClawEval 评测中达到 55.0，超过 Kimi-K2.5、接近 GLM-5，但与 Claude Opus-4.6 同样存在差距。

这类评测更关注模型在多步调用、工具协同与任务拆解中的稳定性，直接对应 Agent 在真实环境中的执行能力。

在参数规模仅 295B 的前提下，这一表现也能看出其追求 " 性价比最优 "，成为当前少数在成本与能力之间取得平衡的模型之一。

三、推理效率提升 40%，输入 1.2 元 / 百万 tokens 起，256K 长上下文成本压低

在能力之外，Hy3 preview 此次更直接的变化体现在推理效率与成本结构上。

得益于模型架构与推理框架的深度协同，以及算子优化与量化策略的整体调整，其整体推理效率提升约 40%，将单位调用成本进一步压缩。

从实际定价来看，在 0-16K 上下文范围内，Hy3 preview 输入价格最低为 1.2 元 / 百万 tokens，命中缓存后可降至 0.4 元，输出价格为 4 元。

在更长上下文（最高 256K）场景下，Hy3 preview 输入价格逐步提升至 2 元 / 百万 tokens，输出价格为 8 元。

这意味着，在长文本、复杂 Agent 任务中，其成本仍处于可控范围。

除了按量计费，腾讯云还推出了面向开发者的 Token 套餐方案，将成本进一步前置与打包。以个人版为例，Lite 套餐月费 28 元，对应约 3500 万 tokens 额度，折合单价约 0.8 元 / 百万 tokens；Standard、Pro、Max 套餐则分别提供 100M、320M、650M tokens，对应单价逐步下降至 0.72 元 / 百万 tokens。

这一梯度设计，对更高频、更长链路的调用场景更加友好，适用于需要持续运行的 Agent 应用。

结语：混元重建后的第一步，把重心放回真实场景

从某种意义上看，Hy3 preview 是腾讯混元在团队、架构与基础设施全面重建之后的一个起点版本。它没有继续沿着 " 更大参数 " 的路径走下去，而是选择以 295B 的规模，注重打磨推理、代码、Agent 等能力。

这一方向也对应姚顺雨提出的 "AI 下半场 " 判断——模型的价值，不在榜单，而在复杂场景中的可用性。从目前的落地情况来看，无论是元宝、WorkBuddy，还是 QQ 助手与 AI 客服，这一版本已经开始在腾讯内部多条业务线上持续 " 跑起来 "，并通过实际反馈反向推动模型迭代。

放在更大的时间线上看，Hy3 preview 或许是腾讯在这一轮大模型竞争中重新找到节奏的信号。

今天，姚顺雨在 DeepSeek V4 前交卷了

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

今天，姚顺雨在 DeepSeek V4 前交卷了

宙世代

一起剪

相关阅读

鸿蒙6杀入大众产品线，手机行业的「参数内卷」该到头了

最新评论

智东西

热门推荐

企业资讯