
作者 | 江宇
编辑 | 心缘
姚顺雨第一场 " 大考 " 交卷!
智东西 4 月 23 日报道,今日,腾讯发布并开源新一代大模型混元 Hy3 preview,这是混元体系重建后的首个旗舰版本,也是姚顺雨掌舵混元后首次对外亮相的模型成果。

从测评结果来看,Hy3 preview 在复杂推理、指令遵循、代码与智能体能力等关键维度实现整体提升。在复杂推理任务中,其在 FrontierScience-Olympiad 拿下 70.0 分、IMO Answer Bench 达到 84.3 分,整体表现已超过 GLM-5、Kimi-K2.5,接近 Gemini 3.1 Pro 与 GPT-5.4,并在清华求真书院数学博士资格考试中取得 88.4 分的国内最高成绩。
在代码与搜索能力上,其在 SWE-Bench Verified 达到 74.4%,已逼近 GLM-5 与 Kimi-K2.5,在 Terminal-Bench 2.0、BrowseComp、WideSearch 等基准中也进入第一梯队,但与 Claude Opus-4.6 等顶级闭源模型仍有差距。
在 ClawEval、WildClawBench 等 Agent 评测中,Hy3 preview 的综合执行能力明显提升。在涵盖 16 项基准的综合评测中,其平均得分约 56 分,显著高于上一代 Hy2(约 35 分),并进入当前主流 Agent 模型的竞争区。
目前,Hy3 preview 已率先接入腾讯云、元宝、ima、CodeBuddy、WorkBuddy、QQ 等多条核心产品线。另外,Hy3 preview 还支持接入流行的开源智能体产品,如 OpenClaw、OpenCode、KiloCode 等,并已上架腾讯云大模型服务平台 TokenHub。

而近期,国内外大模型赛道可谓是 " 动作频频 "。
上周五,Anthropic 发布了新一代旗舰模型 Claude Opus 4.7;4 月 20 日,阿里发布了其下一代旗舰模型的早期预览版 Qwen3.6-Max-Preview;4 月 21 日,Kimi 正式发布并开源旗舰模型 K2.6;4 月 23 日,小米 MiMo 大模型家族一口气官宣 4 款新模型,其中旗舰推理模型 MiMo-V2.5 也开启公测。
而行业最期待的 " 开源猛兽 " DeepSeek V4 也有望在本周内降临。这一波国内外旗舰模型的集体 " 上桌 ",或意味着大模型格局的洗牌时刻即将到来。
面对如此激烈的神仙打架局面,定位 " 全面实用性 " 的 Hy3 preview 究竟具备怎样的真实战斗力?我们第一时间对其进行了实测。
开源地址:
https://github.com/Tencent-Hunyuan/Hy3-preview
一、挑战复杂 SVG 与互动 HTML,代码与逻辑能力一手实测
为了全面验证其能力,我们从逻辑推理、前端代码生成以及多模态表现等维度,对 Hy3 preview 进行了实测。
首先,我们抛出了两个经典的 " 陷阱题 "。
提示词:我要去洗车,洗车的地方离家就 100 米,我是开车去呢,还是走着去呢?


在代码生成维度,我们首先选择了一个高难度的 SVG 绘制任务。
提示词:生成一个 Xbox 360 控制器的 SVG 代码。

从实测结果来看,Hy3 preview 在首次生成时遭遇了失败,虽然系统很快进行了重新生成,但最终的视觉效果并不理想。摇杆、按键等核心组件出现了明显的坐标错位。
接下来,我们进一步测试了其生成带有交互逻辑的复杂 HTML 代码的能力。
提示词:用一个 HTML 代码块编写一个 3D 精灵球,它应该是可交互的,并且在打开时会有随机的宝可梦从里面出来。

最后一个体验案例是创建一个像素风格的前端页面。
提示词:创建一个骑自行车的鹈鹕的 3D 像素艺术作品。尽可能将场景刻画得非常细致,注意主体模型上的每一个小细节,同时也要考虑周围环境的细节。在一个 HTML 代码块中完成制作,将代码写得足够优秀,以展示你的水平超越其他作品。我赋予你完全的创作自由,尽情发挥。
在这一案例中,Hy3 preview 在静态结构的理解上表现尚可,鹈鹕的身体结构与自行车形态也相对完整。但遗憾的是,代码生成的画面中鹈鹕并没有如预期般呈现出动态骑行效果,且在细节刻画上缺失了自行车链条这一部件。
总体而言,Hy3 preview 在代码框架构建和基本意图理解上展现出了不错的潜力。但在涉及复杂空间坐标系、前端深度交互渲染时,仍需持续进化与打磨。
除了图形与交互测试,我们还验证了 Hy3 preview 在财务分析上的表现。我将腾讯 2023、2024、2025 年的财报输入模型,让它生成财报分析报告。
模型能够准确提取核心财务数据,并呈现三年的同比变化趋势。同时,按年报披露的业务分部,生成收入结构对比图和业务板块占比变化图,整体分析报告清晰可读,数据整合能力令人印象深刻。

二、多项核心基准跻身第一梯队,Agent 能力逼近主流旗舰模型
从测评表现来看,Hy3 preview 在多个关键能力维度上进入第一梯队。
以长上下文与指令遵循为例,在自建的 CL-bench 与 CL-bench Life 评测中,其得分分别达到 22.8 和 15.7,明显高于 GLM-5、Kimi-K2.5 等同类模型,但与 GPT-5.4 级别模型相比仍存在差距,整体处于开源阵营前列位置。

在 IMO Answer Bench 上达到 84.3 分,超过 Kimi-K2.5 和 GLM-5,但仍低于 Gemini 3.1 Pro 与 GPT-5.4。
在清华求真书院数学博士资格考试中,其得分为 88.4,显著高于 Kimi-K2.5 和 GLM-5,但与顶级闭源模型仍有差距;在 CHSBO 2025 生物竞赛中,其 87.8 的表现同样领先多数开源模型,接近 GPT-5.4 的水平。

在后端工程任务集 Hy-Backend 上,Hy3 preview 得分达到 54.7,超过 GLM-5 和 Kimi-K2.5;在更贴近用户交互的 Hy-Vibe 评测中,其表现同样领先 Kimi-K2.5;在高难度软件工程任务 Hy-SWE Max 上,Hy3 preview 达到 30,明显高于 Kimi-K2.5、接近 GLM-5,但与 Claude Opus-4.6 仍存在差距。

在 SWE-Bench Verified 上,Hy3 preview 达到 74.4%,已经逼近 GLM-5 和 Kimi-K2.5,但与 Claude Opus-4.6 仍有差距;在 Terminal-Bench 2.0 上,其 54.4% 的成绩超过 GLM-4.7 等模型,进入第一梯队。
在搜索与信息整合能力上,Hy3 preview 在 BrowseComp 上达到 67.1%,接近 GLM-5 与 Kimi-K2.5;在 WideSearch 上取得 70.2%,超过 GLM-5,但仍低于 Claude Opus-4.6。

进一步看整体 Agent 能力,在涵盖 16 项基准的综合评测中,Hy3 preview 以约 56 分的综合得分,显著高于 Hy2(约 35 分),并与 GLM-4.7、DeepSeek-V3.2 等模型拉开差距,接近 GLM-5 与 Kimi-K2.5 所在区间。


在参数规模仅 295B 的前提下,这一表现也能看出其追求 " 性价比最优 ",成为当前少数在成本与能力之间取得平衡的模型之一。
三、推理效率提升 40%,输入 1.2 元 / 百万 tokens 起,256K 长上下文成本压低
在能力之外,Hy3 preview 此次更直接的变化体现在推理效率与成本结构上。
得益于模型架构与推理框架的深度协同,以及算子优化与量化策略的整体调整,其整体推理效率提升约 40%,将单位调用成本进一步压缩。
从实际定价来看,在 0-16K 上下文范围内,Hy3 preview 输入价格最低为 1.2 元 / 百万 tokens,命中缓存后可降至 0.4 元,输出价格为 4 元。
在更长上下文(最高 256K)场景下,Hy3 preview 输入价格逐步提升至 2 元 / 百万 tokens,输出价格为 8 元。

除了按量计费,腾讯云还推出了面向开发者的 Token 套餐方案,将成本进一步前置与打包。以个人版为例,Lite 套餐月费 28 元,对应约 3500 万 tokens 额度,折合单价约 0.8 元 / 百万 tokens;Standard、Pro、Max 套餐则分别提供 100M、320M、650M tokens,对应单价逐步下降至 0.72 元 / 百万 tokens。

结语:混元重建后的第一步,把重心放回真实场景
从某种意义上看,Hy3 preview 是腾讯混元在团队、架构与基础设施全面重建之后的一个起点版本。它没有继续沿着 " 更大参数 " 的路径走下去,而是选择以 295B 的规模,注重打磨推理、代码、Agent 等能力。
这一方向也对应姚顺雨提出的 "AI 下半场 " 判断——模型的价值,不在榜单,而在复杂场景中的可用性。从目前的落地情况来看,无论是元宝、WorkBuddy,还是 QQ 助手与 AI 客服,这一版本已经开始在腾讯内部多条业务线上持续 " 跑起来 ",并通过实际反馈反向推动模型迭代。
放在更大的时间线上看,Hy3 preview 或许是腾讯在这一轮大模型竞争中重新找到节奏的信号。
今天,姚顺雨在 DeepSeek V4 前交卷了