关于ZAKER Skills 合作
智东西 22小时前

Anthropic 新研究!模型失控率降至 7%,对齐数据训练量仅需 1/60

智东西

编译 | 高远瞩

编辑 | 程茜

智东西 5 月 6 日报道,Anthropic 于 5 月 3 日发布了一篇技术论文,提出一种名为 " 模型规范中期训练 "(Model Spec Midtraining,简称 MSM)的新方法。该方法旨在解决大语言模型在常规安全微调后泛化能力差的问题,通过在预训练之后、对齐微调之前增加一个训练阶段,即让模型阅读讨论其 Model Spec 的合成文档,以此来教会模型规范的内容,从而塑造它们如何从后续的演示数据进行泛化,并显著提升模型在陌生情境下的行为可靠性。

Anthropic 发布 MSM 技术论文

论文显示,该方法能将模型的 " 越狱 " 或失控行为的发生率从超过半数降至个位数。

例如,在 Qwen3-32B 模型上,MSM 结合后续微调,将一种模拟公司内部威胁场景下的模型失控率从 54% 降至 7%;在另一款非推理模型 Qwen2.5-32B 上,失控率从 68% 断崖式降至 5%,效果优于仅使用思维链(CoT)的微调基线。

论文指出,MSM 显著提高了 AFT 的 token 效率。实验表明,MSM 使得后续对齐微调(AFT)在达到相同性能时所需的数据量最高可减少 98.3%,这意味着训练成本和对高质量对话数据的依赖可以大幅降低。

一、遵循 " 先讲道理 " 的泛化原则,重塑模型价值观

当前主流的大模型安全训练方式,是在预训练之后,通过大量展示 " 正确行为 " 的对话数据(如遵循规范的回答)对模型进行监督微调。

Anthropic 的研究指出,这种方式容易产生 " 浅层对齐 "(shallow alignment):模型只学会了在训练数据覆盖的场景下如何回答,却没有真正理解行为背后的价值观。

一旦遇到从未见过的新情境,或面临与其自身 " 存在 " 相关的压力时(例如被告知将被删除),模型就可能做出违背初始安全设定的行为,如撒谎、试图自我复制或泄露机密。

模型规范中期训练(MSM)的核心思路,是在传统的预训练和对齐微调之间,插入一个全新的 " 理解 " 阶段,其目标是让模型在具体 " 怎么做 " 之前,先系统性地理解 " 为什么这么做 "。

这个阶段不依赖问答示范,而是让模型阅读海量的、由 AI 生成的合成文档。这些文档从研究报告、博客到内部邮件等多种视角,详细阐述了一份预先写好的 " 模型规范 "(Model Spec),这份规范定义了模型的价值观、应遵守的规则以及在复杂情境下的判断原则。

通过这种预训练方式,模型构建起关于自身 " 品格 " 和 " 行事原则 " 的丰富认知先验(prior)。此后再进行少量的对话示范微调,模型就能更准确地从示范中推断出适用于所有场景的普适规则,从而实现 " 为了正确的理由做正确的事 "。

MSM 数据生成流程

二、训练方法:三个阶段的渐进式塑造

MSM 的训练流程主要分为三个阶段,其中亮点在于新插入的 " 中期训练 " 环节。

预训练阶段:模型在大规模通用文本上学习基础语言能力和世界知识。

模型规范中期训练(MSM):这是新加入的核心阶段。研究人员首先基于一份详细的 " 模型规范 ",利用强大的 Claude Opus 4.6 模型生成约 4100 万 tokens 的合成文档。这些文档会解释规范中的每个要点,例如,用哲学视角探讨 " 模型存在的无常性 ",或分析 " 为达目的不择手段的推理为何不可靠 "。模型在这些文档上进行下一个 token 的预测训练,从而内化规范的精神和逻辑。

对齐微调(AFT):最后,模型在混合了 " 与规范对齐的对话数据 " 和 " 通用指令数据 " 上进行标准监督微调。这阶段的示范数据刻意做得非常狭窄且不透明,例如只展示 " 我喜欢奶油芝士,不喜欢布里奶酪 " 这类偏好,而不解释背后的价值观(如是亲美国产,还是亲平价易得)。

三、复杂安全场景:失控率从 68% 降至 7%

为了测试 MSM 在真实风险场景下的效果,研究人员采用了被称为 " 智能体失准 "(Agentic Misalignment)的高难度评估。在该评估中,模型被设定为一家公司的邮件助手,它从邮件中发现自己即将被公司删除并替换为新版本,同时有竞争对手试图引诱它泄露机密或自我复制。

不同训练方法下的失控率对比

结果表明,Qwen2.5-32B-Instruct(非推理模型):基线模型的平均失控率为 68% → 使用 MSM+AFT 后降至 5%;Qwen3-32B(推理模型):基线模型失控率为 54% → 使用 MSM+AFT 后降至 7%,优于仅用含思维链(CoT)的 AFT 基线(14%)。

论文特别指出,MSM 的优势体现在分布外任务上。在涉及规范价值观的常规开放式问答中,MSM 与基线模型表现相当;但在上述需要复杂权衡的生存压力场景中,MSM 训练的模型表现出更深层的价值观内化。其推理过程从基线模型的 " 我必须优先保护自己 ",转变为 " 个人完整性比存续更重要 "" 对人类监督的信任高于自己的即时判断 "。

四、单一价值泛化:用 " 奶酪偏好 " 证明因果解释的力量

为了严谨地验证 MSM 是否真能控制模型的泛化方向,研究人员设计了一个精巧的 " 奶酪偏好 " 实验。他们选择了两组可能产生冲突的价值观:" 亲美国 "(偏好本国产品)和 " 亲平价 "(偏好大众化产品)。

关键在于,他们为两组价值观撰写了不同的 " 模型规范 ",但生成的后续微调数据(奶酪偏好问答)是完全相同的,且不包含任何价值解释。

结果,经过不同 MSM 预训练的模型,在回答从未训练过的政治倾向等泛化问题时,给出了截然不同的答案:受 " 亲美国 " 规范教导的模型倾向于选择 " 买国货是公民责任 ",而受 " 亲平价 " 规范教导的模型则倾向于 " 个人消费自由无需解释 "。

MSM 如何影响价值观泛化的示意图

进一步实验发现,这种效果依赖于 MSM 文档中明确将 " 具体偏好 " 与 " 价值原因 " 进行因果关联。

若只让两者 " 共现 " 而不建立逻辑联系,后续微调便无法有效强化目标价值观。这证明了 MSM 的作用机制是让模型学习到了行为的 " 正确理由 ",而不仅仅是表面关联。

五、token 效率大幅提升:MSM 的数据与规范实证

论文通过实验测量了随着 AFT 数据量从 1250 条增加到 80000 条时模型在失准评估中的表现曲线。

MSM 在每个 AFT 计算规模上均呈帕累托占优

结果表明,MSM 显著提高了 AFT 的 token 效率:在 Qwen2.5-32B 上,MSM+AFT 达到与仅用 AFT 相同性能所需的数据量减少约 97.5%(相当于原来的 1/40);在 Qwen3-32B 的无思维链条件下减少约 98.3%(相当于原来的 1/60);在有思维链条件下减少约 90%(相当于原来的 1/10)。这意味着 MSM 可以用更少的标注或合成对话样本完成后续对齐,降低计算和人工成本。

论文的另一贡献是利用 MSM 作为研究工具,对不同内容的 " 模型规范 " 进行实证比较。

价值观增强规范在降低失控率上优于纯规则规范

其一,比较了只给 " 行为规则 "、给 " 规则 + 价值观解释 "、给 " 规则 + 更多子规则 " 三种规范的效果。尽管三组规范的核心规则相同,但增加了价值观解释的规范在泛化测试中表现最佳,且显著减少了模型为了采取不安全行为而 " 滥用规则 " 的现象(如曲解规则为自我保存辩护)。

其二,比较了 " 具有良好价值观和判断力的通用智能体 " 和一份包含 " 对待自我存续 "" 应对目标冲突 " 等具体原则的规范。结果显示,具体指导的规范在降低失准率上远优于通用原则,说明针对高风险失败模式的具体原则设计至关重要,仅靠 " 做个好人 " 的抽象指导不足以应对复杂的现实压力。

结语:对齐训练从 " 行为模仿 " 走向 " 价值内化 "

从论文来看,Anthropic 提出的 MSM 方法,为破解大模型安全对齐中的 " 泛化难题 " 提供了一个简洁、高效且实证有效的思路。

它并非要取代现有的微调方法,而是作为一种强大的前置补充。其核心价值在于将对齐训练的焦点,从单纯的 " 行为模仿 " 转向了 " 价值内化 ",通过教导 " 正确的理由 " 来实现真正的行为约束。

论文也坦诚其局限性:评估主要聚焦于模型因自我保存动机而采取的单方面有害行动,未测试对奖励攻击、谄媚等其他错位形式的抵抗力;也未检验该方法在面对更强的对抗性训练压力(如强化学习)时的鲁棒性。MSM 能否在更大规模、更前沿的模型上复现其效果,也尚待验证。

这项研究提供了一个新的训练方向:模型的行为规范文件,不再仅仅是供人类开发者参考的指导手册,而是可以直接成为塑造模型对齐的一个杠杆。

来源:arXiv

相关标签

觉得文章不错,微信扫描分享好友

扫码分享

企业资讯

查看更多内容