
作者|连冉
编辑|靖宇
姚顺雨交出了加入腾讯后的第一份模型答卷。
4 月 23 日,腾讯混元 Hy3 preview 语言模型发布并开源。这是一款主打快慢思考融合的 MoE 语言模型,总参数 295B,激活参数 21B,最大支持 256K 上下文长度,官方称其整体性能达到同尺寸模型最佳水平。
从研发节奏来看,Hy3 preview 于 2026 年 1 月底正式启动训练,从训练到上线用了不到三个月,被腾讯内部定义为混元大模型从「读万卷书」走向「行万里路」、尝试解决真实世界复杂问题的开端。
而这款模型最受行业关注的核心标签,是它作为备受瞩目的「天才少年」姚顺雨,在 2025 年底加盟腾讯后,全程主导推出的第一代大模型。
作为腾讯重金邀请的首席 AI 科学家,Hy3 preview 既是他对重构后的混元研发体系的首次完整实践,也承载着腾讯补齐 AI 短板、在大模型下半场实现追赶的核心期待。
姚顺雨表示,「Hy3 preview 是混元大模型重建的第一步。我们希望通过这次开源和发布,获得来自开源社区和用户的真实反馈,帮助我们提升 Hy3 正式版的实用性。与此同时,我们也在继续扩大预训练和强化学习的规模,提升模型的智能上限,并通过与腾讯众多产品的深度 Co-Design,持续提升模型在真实场景中的综合表现,并开始探索特色模型能力。」
01
一手实测 Hy3 preview
从官方披露的核心信息来看,Hy3 preview 从研发之初就围绕智能体(Agent)场景做了针对性设计,这也是它与此前混元系列模型最核心的差异。
在启动模型训练前,姚顺雨主导完成了混元预训练和强化学习基础设施的全面重建,同时定下了模型追求实用性的三大核心原则,构成了 Hy3 preview 的研发底层逻辑:
能力体系化:不推崇「偏科」,因为即便是代码智能体的单一应用,也涉及推理、长文、指令、对话、代码、工具等多种能力的深度协同;
评测真实性:主动跳出易被「刷榜」的公开榜单,通过自建题目、最新考试、人工评测、产品众测等多种方式评估和改进模型的「真实战斗力」;
性价比追求:实用性离不开商业合理性,深度协同模型架构和推理框架的设计,大幅降低任务成本,让智能用得起、用得好。
官方资料显示,Hy3 preview 采用了总参数量 295B、激活参数仅 21B 的 MoE 架构,同时融合了「快慢思考」机制。
21B 的激活参数,为模型高频次、长链路的 Agent 调用提供了低成本的运行底座;而「快慢思考」的融合设计,天然适配复杂逻辑推理与多步工具调用场景,也就是姚顺雨提出的 ReAct(推理 - 行动)循环。
极客公园第一时间实测了 Hy3 preview,先以一个覆盖数据抓取、数值计算、可视化生成、文本分析全链路的综合任务来试水,「使用 Python 抓取过去 90 天纳斯达克 100、伦敦金与沪深 300 的日线收盘数据。计算它们之间的皮尔逊相关系数,并用 D3.js 或 ECharts 生成一个单文件 HTML 动态热力图。最后,基于数据结果输出一段 500 字的跨市场资产配置 Memo。」
视频来源:极客公园
可以看到,Hy3 preview 在数据获取阶段反复受阻,接口认证失败后接连切换 akshare、yfinance 等多个数据源,纳斯达克 100 数据因速率限制缺失而被迫用模拟数据替代,修错重试的循环消耗了大量时间。
可视化交付上,Hy3 preview 最终生成了三资产相关性热力图,但由于部分数据并非真实采样,热力图的准确性与可信度打了折扣。
最核心的文本交付物缺失明显——提示词明确要求输出 500 字跨市场资产配置 Memo,Hy3 preview 却只给出了几行 Bullet point 式的简略配置比例,没有成文的分析段落,任务交付在关键环节出现了缺位。
我又尝试了另一个长链路 Agent 测试——启用浏览器模式,在 SkillHub 平台进行全链路深度抓取,完整理清腾讯文档 Skill 的 Auth 认证全流程与数据同步底层机制,最终输出一份标准化的技术原理分析文档。
在这次测试中,Hy3 preview 展现了清晰的 Agent 自治与多步推理(ReAct)过程:先搜索 SkillHub 整体介绍;发现需要深入,又去精准抓取了 Auth 认证的开发者文档;接着去查了 MCP Server 的底层原理;最后才开始动笔写文档,这证明了 Hy3 preview 作为 Agent 的路由调度中心,其长链路规划和工具调用很稳定,没有在中途崩溃或陷入死循环,完整走完了「推理 - 行动 - 验证 - 输出」的闭环。
这一表现也与官方披露的产品落地数据形成了呼应:在 CodeBuddy、WorkBuddy 产品上,Hy3 preview 首 token 延迟降低 54%、端到端时长降低 47%、任务成功率提升至 99.99%+,在实际用户环境中,已稳定驱动最长 495 步的复杂 Agent 工作流,覆盖文档处理、数据分析、知识检索、工具链编排等多样化办公场景。
从这两组实测可以看出,Hy3 preview 呈现出一种典型的「过渡态特征」。
一方面,在复杂任务中,它已经具备了较为清晰的 Agent 执行路径:能够自主拆解问题、规划步骤,并在不同工具之间进行切换,整体链路没有明显中断。这种「从问题到流程」的能力,确实在向真实工作流靠近。
但另一方面,真正决定可用性的「最后一公里」仍然不够稳定——数据获取阶段的反复试错、关键结果的缺失、以及最终交付物的不完整,都说明模型在长链路执行中,仍然存在「做了一半」的问题。
目前,Hy3 preview 已在腾讯云、元宝、ima、CodeBuddy、WorkBuddy、QQ、腾讯文档等产品首发上线,同时支持接入 OpenClaw、OpenCode 等主流开源智能体产品,并已上架腾讯云大模型服务平台 TokenHub。价格方面,Hy3 preview 输入价格最低 1.2 元 / 百万 tokens,输入命中缓存价格 0.4 元 / 百万 tokens,输出价格最低 4 元 / 百万 tokens。
02
天才少年,和动起来的腾讯
这是备受关注的「天才少年」姚顺雨入职腾讯后主导的第一代大模型。
作为 2025 年底腾讯重磅挖来的首席 AI 科学家,Hy3 preview 是他入职后交出的第一份核心模型答卷,也承载着腾讯补齐 AI 短板、发力大模型基础研究的期待。
去年 9-12 月,姚顺雨入职腾讯,出任 "CEO/ 总裁办公室 " 首席 AI 科学家,兼任 AI Infra 部与大语言模型部负责人,直接向总裁刘炽平汇报,全面统筹混元大模型研发工作。
12 月,腾讯完成组织架构重构,新设 AI Infra 部、AI Data 部、数据计算平台部,姚顺雨全面掌控混元研发体系,上任后立即重构了 AI Infra 团队,搭建起预训练、精调、后训练、推理等完整研发链条,为后续模型研发奠定基础。
今年 1 月底,马化腾在年会上承认腾讯 AI「动作慢了」,刘炽平同步披露混元 3.0 正在内部测试,计划 4 月对外推出,也是在 1 月底,Hy3 preview 正式启动训练,从训练到上线用了不到三个月。
姚顺雨(1998 年生)的履历自带「天才少年」标签,但客观来看,他的技术背景与腾讯当时的 AI 需求高度契合,这也是腾讯重金挖角的核心原因——腾讯此前混元负责人张正友(深耕计算机视觉领域)、蒋杰(侧重大数据方向)均非 NLP/LLM 原生背景,而姚顺雨是腾讯首位真正意义上的 LLM 原生技术领导者,其核心履历与研究方向,恰好匹配腾讯混元突破的核心需求。
在学术界,姚顺雨是顶级的语言智能体(Language Agents)研究者,著名的 ReAct(推理 - 行动框架)和 Tree of Thoughts(思维树)均出自其手,;在 OpenAI 短暂的一年多里,他也深度参与了 Operator、Deep Research 等智能体产品研发,深入接触模型预训练与后训练环节,积累了一线工程化经验。
2025 年 4 月,他曾发表文章《The Second Half》,明确提出,AI 的竞争正在从「训练更强的模型」转向「定义并评估真实世界任务」,强调评估体系重构,反对盲目堆料模型规模。
这一理念也贯穿了 Hy3 preview 的研发,Hy3 preview 定位为一个总参数量 295B、激活参数仅 21B 的 MoE 模型。21B 的激活参数意味着模型具备了高频次、长链路 Agent 调用的低成本底座,同时其内部融合的「快慢思考」机制,天然适合处理复杂的逻辑推理与工具调用(如 ReAct 循环)。
从前面的实测来看,Hy3 preview 更像是一款验证技术方向的原型模型。把视角拉回腾讯自身,这种「未完全成熟」的状态,可能也有其内在合理性。一方面,Hy3 preview 从训练到上线不到三个月,本身就是一次快速迭代的技术试水;另一方面,在经历了 AI 组织架构的全面重构之后,腾讯也需要这样一款模型,去验证新的研发链条是否通顺、锚定的 Agent 技术路线是否成立。
不过,在国内大模型已经进入贴身肉搏的当下,Hy3 preview 的到来,只是腾讯 AI 补位的开始。无论是 MoE 架构的工程化优化,还是 Agent 场景的产业落地深度,国内头部厂商已经跑通了多轮迭代,腾讯想要追上甚至超车,仅凭一次模型更新远远不够。
* 头图来源:GPT 生成
本文为极客公园原创文章,转载请联系极客君微信 geekparkGO
极客一问
你看好接下来的混元大模型吗?