小模型也开始卷起来了!
在麻省理工学院衍生公司 Liquid AI 发布了一款小到可以装在智能手表上的新 AI 视觉模型,以及谷歌发布了一款可以在智能手机上运行的小型模型之后,英伟达也加入了这场浪潮,推出了自己的新型小型语言模型(SLM):
Nemotron Nano v2。
这款 9B 的 " 小 " 模型在复杂推理基准测试上的准确率与 Qwen3-8B 相当或更高,速度快 6 倍。
与 Qwen 相比速度提升 6 倍
这款模型由英伟达从头训练,设计目标是成为兼顾推理与非推理任务的统一模型。
模型在响应用户查询或执行任务时,会首先生成推理过程(reasoning trace),随后输出最终答案。该模型支持 " 思考 " 预算控制,在推理过程中,用户可以指定模型被允许 " 思考 " 的 token 数量。
相反,若允许模型先展示推理过程,通常能显著提升最终答案的质量,尤其针对需逻辑分析的复杂任务。
面对网友 " 思考预算控制是如何实现的 " 的问题,英伟达的模型训练师 Oleksii Kuchaiev 表示:
我们最初采用了与 Qwen3 相同的实现方法,但发现当强制要求模型直接输出答案时,它仍会在预设的思维链之外进行 " 思考 "。通过对截断思维链的训练,我们成功解决了这个问题。
在指令遵循和长上下文基准测试中的得分也有报告:在 IFEval 上达到 90.3%,在 RULER 128K 测试中达到 78.9%,在 BFCL v3 和 HLE 基准测试中也有较小但可测量的提升。
Nemotron Nano v2 经过了以下训练过程:
除了 Nemotron Nano v2 模型本身,英伟达还发布了两个基础模型 NVIDIA-Nemotron-Nano-12B-v2-Base(对齐或剪枝前的基础模型)和 NVIDIA-Nemotron-Nano-9B-v2-Base(剪枝的基础模型),对应模型训练的不同阶段,均支持 128k 上下文长度。
超大预训练数据库
除了 Nemotron Nano v2,英伟达首次发布了他们用于创建模型的绝大部分数据,包括预训练语料库。
至于为什么是 " 绝大部分 ",有网友问了这个问题,官方回复简直不要太有道理(笑)。
Nemotron-CC-v2:作为 Nemotron-CC 的升级版本,新增收录了 2024 至 2025 年间八个批次的 Common Crawl 网络快照数据。数据已进行全球去重,并使用 Qwen3-30B-A3B 进行合成改写。它还包含翻译成 15 种语言的合成多样化问答对,支持强大的多语言推理和通用知识预训练。
Nemotron-CC-Math-v1: 一个基于 Common Crawl、使用英伟达的 Lynx + LLM 流程生成的 1330 亿 token 的数学专注数据集,在保留方程和代码格式的同时,将数学内容标准化为 LaTeX 格式。这确保了关键的数学和代码片段保持完整,从而生成高质量的预训练数据,在基准测试中优于先前的数学数据集。
Nemotron-Pretraining-Code-v1: 一个大规模的精选代码数据集,源自 GitHub,并通过多阶段去重、许可证执行和启发式质量检查进行过滤。它还包括 11 种编程语言的 LLM 生成的代码问答对。
Nemotron-Pretraining-SFT-v1:一个综合生成的数据集,涵盖 STEM、学术、推理和多语言领域。该数据集整合了多元化的高质量内容,包括从数学与科学核心题库提取的复杂多选题和分析题、研究生阶段的专业学术文献,以及经过指令微调的 SFT 数据。
Nemotron-Pretraining-Dataset-sample:该数据集的一个小型抽样版本提供了 10 个具有代表性的数据子集,涵盖了高质量问答数据、数学专项内容、代码元数据以及 SFT 指令数据。
那些数字看起来都吓人,数零都得数半天(目移)。
顺带一提,最近英伟达的开源势头可以说是很猛了。
相比于其他国外科技巨头陆续走向的闭源道路,英伟达构建的Nemotron 生态直接把开源二字写在了门面上。
这样的策略会给他们带来什么?又会改变些什么?我们拭目以待。
参考链接:
[ 1 ] https://x.com/ctnzr/status/1957504768156561413
[ 2 ] https://research.nvidia.com/labs/adlr/NVIDIA-Nemotron-Nano-2/
[ 3 ] https://venturebeat.com/ai/nvidia-releases-a-new-small-open-model-nemotron-nano-9b-v2-with-toggle-on-off-reasoning/
论文:https://research.nvidia.com/labs/adlr/files/NVIDIA-Nemotron-Nano-2-Technical-Report.pdf
模型:https://huggingface.co/collections/nvidia/nvidia-nemotron-689f6d6e6ead8e77dd641615
试用:https://build.nvidia.com/nvidia/nvidia-nemotron-nano-9b-v2
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
8 月 22 日本周五,下午 14 点,量子位 AI 沙龙邀请了RockFlow 创始人、CEO 赖蕴琦 Vakee,一同来聊AI Agent,怎么搞投资?
欢迎线下参会!面对面交流 AI Agent、金融投资与 AI 创业
一键关注 点亮星标
科技前沿进展每日见