Anthropic 新研究！模型失控率降至 7%，对齐数据训练量仅需 1/60

智东西

编译 | 高远瞩

编辑 | 程茜

智东西 5 月 6 日报道，Anthropic 于 5 月 3 日发布了一篇技术论文，提出一种名为 " 模型规范中期训练 "（Model Spec Midtraining，简称 MSM）的新方法。该方法旨在解决大语言模型在常规安全微调后泛化能力差的问题，通过在预训练之后、对齐微调之前增加一个训练阶段，即让模型阅读讨论其 Model Spec 的合成文档，以此来教会模型规范的内容，从而塑造它们如何从后续的演示数据进行泛化，并显著提升模型在陌生情境下的行为可靠性。

Anthropic 发布 MSM 技术论文

论文显示，该方法能将模型的 " 越狱 " 或失控行为的发生率从超过半数降至个位数。

例如，在 Qwen3-32B 模型上，MSM 结合后续微调，将一种模拟公司内部威胁场景下的模型失控率从 54% 降至 7%；在另一款非推理模型 Qwen2.5-32B 上，失控率从 68% 断崖式降至 5%，效果优于仅使用思维链（CoT）的微调基线。

论文指出，MSM 显著提高了 AFT 的 token 效率。实验表明，MSM 使得后续对齐微调（AFT）在达到相同性能时所需的数据量最高可减少 98.3%，这意味着训练成本和对高质量对话数据的依赖可以大幅降低。

一、遵循 " 先讲道理 " 的泛化原则，重塑模型价值观

当前主流的大模型安全训练方式，是在预训练之后，通过大量展示 " 正确行为 " 的对话数据（如遵循规范的回答）对模型进行监督微调。

Anthropic 的研究指出，这种方式容易产生 " 浅层对齐 "（shallow alignment）：模型只学会了在训练数据覆盖的场景下如何回答，却没有真正理解行为背后的价值观。

一旦遇到从未见过的新情境，或面临与其自身 " 存在 " 相关的压力时（例如被告知将被删除），模型就可能做出违背初始安全设定的行为，如撒谎、试图自我复制或泄露机密。

模型规范中期训练（MSM）的核心思路，是在传统的预训练和对齐微调之间，插入一个全新的 " 理解 " 阶段，其目标是让模型在具体 " 怎么做 " 之前，先系统性地理解 " 为什么这么做 "。

这个阶段不依赖问答示范，而是让模型阅读海量的、由 AI 生成的合成文档。这些文档从研究报告、博客到内部邮件等多种视角，详细阐述了一份预先写好的 " 模型规范 "（Model Spec），这份规范定义了模型的价值观、应遵守的规则以及在复杂情境下的判断原则。

通过这种预训练方式，模型构建起关于自身 " 品格 " 和 " 行事原则 " 的丰富认知先验（prior）。此后再进行少量的对话示范微调，模型就能更准确地从示范中推断出适用于所有场景的普适规则，从而实现 " 为了正确的理由做正确的事 "。

MSM 数据生成流程

二、训练方法：三个阶段的渐进式塑造

MSM 的训练流程主要分为三个阶段，其中亮点在于新插入的 " 中期训练 " 环节。

预训练阶段：模型在大规模通用文本上学习基础语言能力和世界知识。

模型规范中期训练（MSM）：这是新加入的核心阶段。研究人员首先基于一份详细的 " 模型规范 "，利用强大的 Claude Opus 4.6 模型生成约 4100 万 tokens 的合成文档。这些文档会解释规范中的每个要点，例如，用哲学视角探讨 " 模型存在的无常性 "，或分析 " 为达目的不择手段的推理为何不可靠 "。模型在这些文档上进行下一个 token 的预测训练，从而内化规范的精神和逻辑。

对齐微调（AFT）：最后，模型在混合了 " 与规范对齐的对话数据 " 和 " 通用指令数据 " 上进行标准监督微调。这阶段的示范数据刻意做得非常狭窄且不透明，例如只展示 " 我喜欢奶油芝士，不喜欢布里奶酪 " 这类偏好，而不解释背后的价值观（如是亲美国产，还是亲平价易得）。

三、复杂安全场景：失控率从 68% 降至 7%

为了测试 MSM 在真实风险场景下的效果，研究人员采用了被称为 " 智能体失准 "（Agentic Misalignment）的高难度评估。在该评估中，模型被设定为一家公司的邮件助手，它从邮件中发现自己即将被公司删除并替换为新版本，同时有竞争对手试图引诱它泄露机密或自我复制。

不同训练方法下的失控率对比

结果表明，Qwen2.5-32B-Instruct（非推理模型）：基线模型的平均失控率为 68% → 使用 MSM+AFT 后降至 5%；Qwen3-32B（推理模型）：基线模型失控率为 54% → 使用 MSM+AFT 后降至 7%，优于仅用含思维链（CoT）的 AFT 基线（14%）。

论文特别指出，MSM 的优势体现在分布外任务上。在涉及规范价值观的常规开放式问答中，MSM 与基线模型表现相当；但在上述需要复杂权衡的生存压力场景中，MSM 训练的模型表现出更深层的价值观内化。其推理过程从基线模型的 " 我必须优先保护自己 "，转变为 " 个人完整性比存续更重要 "" 对人类监督的信任高于自己的即时判断 "。

四、单一价值泛化：用 " 奶酪偏好 " 证明因果解释的力量

为了严谨地验证 MSM 是否真能控制模型的泛化方向，研究人员设计了一个精巧的 " 奶酪偏好 " 实验。他们选择了两组可能产生冲突的价值观：" 亲美国 "（偏好本国产品）和 " 亲平价 "（偏好大众化产品）。

关键在于，他们为两组价值观撰写了不同的 " 模型规范 "，但生成的后续微调数据（奶酪偏好问答）是完全相同的，且不包含任何价值解释。

结果，经过不同 MSM 预训练的模型，在回答从未训练过的政治倾向等泛化问题时，给出了截然不同的答案：受 " 亲美国 " 规范教导的模型倾向于选择 " 买国货是公民责任 "，而受 " 亲平价 " 规范教导的模型则倾向于 " 个人消费自由无需解释 "。

MSM 如何影响价值观泛化的示意图

进一步实验发现，这种效果依赖于 MSM 文档中明确将 " 具体偏好 " 与 " 价值原因 " 进行因果关联。

若只让两者 " 共现 " 而不建立逻辑联系，后续微调便无法有效强化目标价值观。这证明了 MSM 的作用机制是让模型学习到了行为的 " 正确理由 "，而不仅仅是表面关联。

五、token 效率大幅提升：MSM 的数据与规范实证

论文通过实验测量了随着 AFT 数据量从 1250 条增加到 80000 条时模型在失准评估中的表现曲线。

MSM 在每个 AFT 计算规模上均呈帕累托占优

结果表明，MSM 显著提高了 AFT 的 token 效率：在 Qwen2.5-32B 上，MSM+AFT 达到与仅用 AFT 相同性能所需的数据量减少约 97.5%（相当于原来的 1/40）；在 Qwen3-32B 的无思维链条件下减少约 98.3%（相当于原来的 1/60）；在有思维链条件下减少约 90%（相当于原来的 1/10）。这意味着 MSM 可以用更少的标注或合成对话样本完成后续对齐，降低计算和人工成本。

论文的另一贡献是利用 MSM 作为研究工具，对不同内容的 " 模型规范 " 进行实证比较。

价值观增强规范在降低失控率上优于纯规则规范

其一，比较了只给 " 行为规则 "、给 " 规则 + 价值观解释 "、给 " 规则 + 更多子规则 " 三种规范的效果。尽管三组规范的核心规则相同，但增加了价值观解释的规范在泛化测试中表现最佳，且显著减少了模型为了采取不安全行为而 " 滥用规则 " 的现象（如曲解规则为自我保存辩护）。

其二，比较了 " 具有良好价值观和判断力的通用智能体 " 和一份包含 " 对待自我存续 "" 应对目标冲突 " 等具体原则的规范。结果显示，具体指导的规范在降低失准率上远优于通用原则，说明针对高风险失败模式的具体原则设计至关重要，仅靠 " 做个好人 " 的抽象指导不足以应对复杂的现实压力。

结语：对齐训练从 " 行为模仿 " 走向 " 价值内化 "

从论文来看，Anthropic 提出的 MSM 方法，为破解大模型安全对齐中的 " 泛化难题 " 提供了一个简洁、高效且实证有效的思路。

它并非要取代现有的微调方法，而是作为一种强大的前置补充。其核心价值在于将对齐训练的焦点，从单纯的 " 行为模仿 " 转向了 " 价值内化 "，通过教导 " 正确的理由 " 来实现真正的行为约束。

论文也坦诚其局限性：评估主要聚焦于模型因自我保存动机而采取的单方面有害行动，未测试对奖励攻击、谄媚等其他错位形式的抵抗力；也未检验该方法在面对更强的对抗性训练压力（如强化学习）时的鲁棒性。MSM 能否在更大规模、更前沿的模型上复现其效果，也尚待验证。

这项研究提供了一个新的训练方向：模型的行为规范文件，不再仅仅是供人类开发者参考的指导手册，而是可以直接成为塑造模型对齐的一个杠杆。

来源：arXiv

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

Anthropic 新研究！模型失控率降至 7%，对齐数据训练量仅需 1/60

宙世代

一起剪

相关阅读

鸿蒙6杀入大众产品线，手机行业的「参数内卷」该到头了

最新评论

智东西

热门推荐

企业资讯