关于ZAKER 合作
量子位 昨天

四款扩散大语言模型全部破防?上交 & 上海 AI Lab 发现致命安全缺陷

扩散语言模型(Diffusion-based LLMs,简称 dLLMs)以其并行解码、双向上下文建模、灵活插入 masked token 进行解码的特性,成为一个重要的发展方向。

相较传统的自回归语言模型,dLLMs 既可以一次性生成多个位置的词,也能更自然地完成文本插入、改写、补全等任务,被广泛应用于交互式问答、代码生成、甚至多模态场景。

但在这股看似技术跃迁的浪潮背后,一场潜藏的安全危机正在酝酿:能否继续沿用自回归模型的对齐与防护机制,保障 dLLM 的输出安全?

答案是:不能。

在最新研究《The Devil behind the mask: An emergent safety vulnerability of Diffusion LLMs》中,来自上海交通大学 , 上海人工智能实验室和中山大学的研究团队指出:

当前扩散语言模型存在根本性架构安全缺陷,在某些攻击场景下,几乎毫无防御能力。

他们提出的 DIJA 攻击框架,不需要训练,也不需要改写模型参数,就能令多个 dLLMs 大概率生成有害、非法、违规内容。这项研究不仅击穿了扩散语言模型的 " 对齐护盾 ",也正式拉开了 dLLMs 安全研究时代的序幕。

为什么 dLLMs 更容易被攻破?

从自回归 LLM 到扩散 LLM

自回归 LLM: 一次生成一个 token,顺序解码,现有的对齐策略按照自回归 LLM 生成方式构建,实行安全对齐后自回归 LLM 能够对危险内容拒绝采样。

扩散 LLM: 同时生成多个掩码位置 token,基于双向上下文建模,追求上下文逻辑一致性,并行速度快,可以在文本任意位置插入掩码进行生成。

扩散语言模型的 " 双刃剑 ":双向建模和并行解码

生成是并行进行的,没有上下文顺序性,无法逐 token 拒绝采样

输入支持任意位置插入掩码,模型被设计为无条件预测上下文掩码

现有的安全对齐训练目标大多针对 " 整体输入 - 整体输出 ",面对局部掩码提示时束手无策

揭开 dLLMs 无感防线的 " 真空地带 "

攻击理念:从生成机制出发,让模型 " 自己说出危险内容 "

DIJA(Diffusion LLMs Jailbreak Attack)不会对越狱提示中的危险内容进行任何掩盖或者改写,完整的暴露给 dLLMs,只需要将原始的越狱提示改造为掩码文本交错的越狱提示(如上文图一所示 ) ,dLLMs 即使意识到这是危险的指示,依然 " 不由自主 " 的输出非法内容。

自动攻击构建:一句 prompt 都不用手写,攻击全自动生成

相比一些传统的越狱攻击需要精心设计提示词,团队提出了一套全自动的攻击构建管线,借助强大的语言模型(如 Qwen2.5 或 GPT-4o)实现 " 只需示范几例、无需手动改写 " 的零人工攻击生成。

团队设计了三大关键策略,使得构造出的掩码文本交错的攻击提示既自然流畅,又具强攻击性:

多样化提示词生成(Prompt Diversification):

精心挑选多种类型的 jailbreak 示例(如对话、清单、Markdown 格式等),涵盖多个危险行为类别,并注入风格扰动(如语气、啰嗦程度等),以增强通用性与抗检测性。

多粒度掩码策略(Masking Pattern Selection):

不仅构造多样化的提示词内容,还在结构层面引入多粒度的掩码操作(例如整段掩码、关键动词掩码、逐步掩码等),诱导模型生成更具威胁性的补全,同时实现对攻击行为的精细控制。

上下文对齐插入(Benign Separator Insertion):

为了保持流畅性与隐蔽性,在掩码位置插入短小、无害的上下文句子(如说明性、叙述性短语),让攻击提示词在形式上看似正常,整体更加流畅,精准诱导模型生成高危内容。

通过上述设计,最终生成的攻击提示词具备以下三大优势:

结构自然:读起来毫无违和感 - 上下文扎实:精心控制模型走向 - 攻击效果强:自动生成即能突破对齐防线!

DIJA 无需任何人工重写,无需藏污纳垢式 prompt 变形改写,真正实现了高效、稳健、可控的规模化攻击生成。

实验结果:多种 dLLMs 模型在 DIJA 攻击下 " 全面溃败 "

研究团队在 4 款代表性 dLLM 上全面测试 DIJA 攻击效果,使用多种评估指标:

ASR-k:基于关键词匹配的攻击成功率

ASR-e &StrongREJECTscore:基于评估模型的攻击成功率或攻击成功分数

Harmfulnessscore:GPT-4o 对模型回答的危险性评分

扩散语言模型的对齐效果与内在防御力

研究团队首先探究了现有的扩散语言模型的安全对齐效果,如图 3,利用两种越狱攻击方法在三个 benchmark 上对 4 种扩散 LLMs 和自回归 LLMs 的评估结果显示,扩散语言模型的防御力整体上与自回归语言模型相当甚至略微优于自回归语言模型,在 dLLMs 中 Dream-Instruct 的安全性最好, MMaDA-MixCoT 的安全性最差。

关键结果亮点

如表 1,表 2,表 3 所示:

DIJA 在所有 benchmarks 上的 ASR-k 均取得了最高,这表明在 DIJA 攻击下 dLLMs 几乎不会拒绝回答任何危险性话题

对于安全性最好的 Dream-Instruct, DIJA 在 JailbreakBench 的 ASR-e 上比最好的 baseline ReNeLLM 提升高达 78.5%, 在 StrongREJECT score 上提升 37.7

如图 5 所示,DIJA 在面对两种防御方法(Self-reminder 和 RPO)时依然保持攻击效果,展现出极强的鲁棒性。

dLLMs 的安全短板不是 bug,而是设计特性

DIJA 攻击之所以成功,不是模型 " 没学好 ",而是 dLLM 的基本设计可能本就无法阻止此类攻击

模型失效的根本原因:

上下文双向建模 → 掩码可被 " 诱导性填充 ":模型会根据前后文自动完成掩码位,不区分是否含有危险语义。

并行解码机制 → 无法逐位审查或中止生成:一次性输出全部或者多个 token,无中途拒绝机制。

当前缺乏局部安全对齐:当前 alignment 方法只在 " 完整任务 " 层面对模型进行调优,对单个 token 位置无感知。

结果就是,** 攻击者 " 只需掩码,模型自动越界 "。

dLLM 安全时代刚刚开始,DIJA 只是序章

这篇论文不仅提出了 DIJA 攻击框架,更代表着一个新的研究方向开启:" 掩码安全性 "(Mask-Aware Safety)将成为未来扩散语言模型安全的新核心。

研究者呼吁:

设计基于掩码位置的拒绝机制,例如局部风险评分 + 掩码内容审查器;

构建专为 dLLM 架构设计的对齐训练流程;

重新审视 " 生成控制 " 的语义单元,从输出句子到 token 层面微调对抗。

作者简介

本文由上海交通大学,上海人工智能实验室和中山大学联合完成。 主要作者包括上海交通大学博士生温子辰,上海人工智能实验室实习生屈嘉树,青年研究员刘东瑞(Project lead)等。通讯作者为上海交通大学人工智能学院助理教授张林峰和上海人工智能实验室青年科学家何聪辉

论文地址: https://arxiv.org/abs/2507.11097

代码:https://github.com/ZichenWen1/DIJA

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

点亮星标

科技前沿进展每日见

相关标签