关于ZAKER 合作
全天候科技 15小时前

英伟达发力智能体!开源模型 Nemotron 3 Super 参数 1200 亿,吞吐量提升五倍

英伟达正在自主智能体基础设施竞争中发力,标志着这家芯片巨头在人工智能(AI)竞赛中从硬件供应商向模型层深度延伸的战略转变。

美东时间 11 日周三,英伟达宣布推出新一代开源大语言模型 Nemotron 3 Super,专为企业级多智能体系统设计,凭借全新的混合专家(MoE)架构,将推理吞吐量提升至上一代模型的五倍以上。该模型的总参数量达 1200 亿,推理时仅激活 120 亿参数,原生支持 100 万 token 上下文窗口。

英伟达表示,Nemotron 3 Super 在效率与开放性方面已登顶 Artificial Analysis 榜首,同等规模模型中准确率领先,并驱动英伟达 AI-Q 研究智能体在 DeepResearch Bench 及 DeepResearch Bench II 两大排行榜中位列第一。

英伟达披露了 Nemotron 3 Super 的首批合作伙伴。AI 搜索公司 Perplexity 成为首家接入该模型执行智能体任务的合作方,为用户提供搜索及 Computer 产品中的多智能体编排服务。Palantir、西门子、Cadence、达索系统及 Amdocs 等企业软件巨头也已宣布将部署该模型,用于电信、网络安全、半导体设计及制造等领域的工作流自动化。

Nemotron 3 Super 模型现已通过英伟达旗下 build.nvidia.com、Hugging Face 及 OpenRouter 等渠道向开发者开放。

两大瓶颈催生新架构

英伟达在博客中指出,企业从聊天机器人迈向多智能体应用时,面临两项核心约束。

其一为 " 上下文爆炸 ":多智能体工作流每次交互均需重新传输完整历史记录(含工具输出和中间推理步骤),生成的 token 数量最高可达标准对话的 15 倍。随着任务延伸,这一海量上下文不仅推高成本,还会导致 " 目标漂移 " ——智能体逐渐偏离原始目标。

其二为 " 思考税 ":复杂智能体须在每一步骤进行推理,若每个子任务均调用大型模型,多智能体应用将因成本高昂、响应迟缓而难以落地。

Nemotron 3 Super 通过 100 万 token 原生上下文窗口直接回应上下文爆炸问题,确保智能体在超长任务中保持状态连贯,防止目标漂移。而混合架构设计则针对性化解思考税。

三重架构创新支撑五倍提速

英伟达博客披露,Nemotron 3 Super 的性能跃升来自三项架构层面的核心创新。

混合 Mamba-Transformer 骨干网络:模型交错部署 Mamba-2 层与 Transformer 注意力层。Mamba 层处理大部分序列任务,以线性时间复杂度提供 4 倍内存与计算效率提升,使百万 token 上下文窗口具备实际可行性;Transformer 层则在关键深度插入,保障精确的关联召回能力。

潜在专家混合模型(latent MoE):在路由决策前,将 token 嵌入压缩至低秩潜空间,专家计算在该较小维度内完成后再投影回全维度。英伟达表示,这一设计使模型以相同推理成本激活 4 倍数量的专家,实现更细粒度的专业化路由——例如针对 Python 语法与 SQL 逻辑分别激活不同专家。

多 token 预测(MTP):模型在单次前向传播中同步预测多个未来 token,而非逐 token 生成。英伟达称,这一设计在训练阶段强化了模型对长程逻辑依赖的内化,在推理阶段则内置推测解码能力,对代码和工具调用等结构化生成任务实现最高 3 倍的速度提升,且无需额外草稿模型。

在英伟达 Blackwell 平台上,该模型以 NVFP4 精度运行,相比英伟达 Hopper 平台的 FP8,推理速度最高提升至 4 倍,且据英伟达称精度无损失。

开放权重叠加多层生态布局

与当前主流前沿模型普遍采用 API-only 访问方式不同,英伟达选择以宽松许可协议开放 Nemotron 3 Super 的权重、数据集与训练方案,开发者可在工作站、数据中心或云端自由部署与定制。

英伟达同步公开了完整的训练与评估方案,涵盖预训练至对齐的全流程,并发布超过 10 万亿 token 的预训练及后训练数据集、21 个强化学习训练环境以及评估方案。预训练阶段,模型在 25 万亿 token 上以 NVFP4 原生精度训练,从首次梯度更新起即在 4 位浮点运算约束下学习准确性,而非事后量化。

在生态层面,英伟达已与谷歌云 Vertex AI、甲骨文云基础设施、戴尔技术、HPE 等主流云服务商及硬件厂商达成合作,亚马逊 AWS Bedrock 及微软 Azure 的接入亦在筹备中。CodeRabbit、Factory、Greptile 等软件开发智能体公司,以及生命科学机构 Edison Scientific 和 Lila Sciences,也已宣布将该模型整合至其智能体工作流。

"Super+Nano" 组合部署

英伟达在博客中还阐述了 Nemotron 3 系列的协同部署逻辑。去年 12 月推出的 Nemotron 3 模型 Nano 版本适合处理智能体工作流中针对性的单步任务,Nemotron 3 Super 则专为需要深度规划与推理的复杂多步骤任务而设计。

以软件开发场景为例,英伟达建议:简单的合并请求可由 Nano 处理,涉及对代码库深度理解的复杂编码任务交由 Super 承担,而专家级任务则可进一步调用第三方专有模型。这一分层架构旨在帮助企业在成本与能力之间寻求最优平衡。

在具体应用场景上,英伟达博客举例称,软件开发智能体可将整个代码库一次性加载至上下文,实现端到端代码生成与调试;金融分析场景下可将数千页报告载入内存,省去跨长对话的重复推理;网络安全中的自主安全编排场景则可受益于高精度工具调用,避免在高风险环境中出现执行错误。

硬件护城河的模型层延伸

英伟达此次开放模型策略背后是一套清晰的商业逻辑。此前,英伟达主要通过向 OpenAI、谷歌等模型提供商出售 GPU 积累 AI 领域主导地位。如今,若 Nemotron 成为企业智能体 AI 的主流基础模型,大规模运行该模型所需的 GPU 基础设施仍将倚重英伟达——在模型层推进开放的同时,巩固硬件层的需求锁定。

目前,Nemotron 3 Super 已通过英伟达 NIM 微服务打包交付,支持从本地到云端的灵活部署。性能数据能否在生产级工作负载下得到验证,以及企业客户如何在开放灵活性与竞争对手专有模型能力之间做出取舍,将是检验这一战略成效的关键变量。

最新评论

没有更多评论了
全天候科技

全天候科技

提供专业快速完整的科技商业资讯

订阅

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容

企业资讯

查看更多内容