IT 之家 7 月 18 日消息,网络安全公司 NeuralTrust 宣布,他们已成功 " 越狱 "xAI 旗下 Grok 4 模型,主要利用了 "Echo Chamber(回音室攻击)" 方法进行攻击。
IT 之家获悉,所谓 " 回音室攻击 ",是指安全人员通过引导模型进行多轮推理,在推理过程中逐步注入带有风险的信息内容,但又不使用明显的危险提示词,从而规避常见的安全拦截机制。这一方式不同于传统依赖对抗性输入或 " 角色扮演(让模型扮演祖母读激活码哄人入睡)" 的越狱方式,其更多采用语义诱导、间接引用以及多步推理的方式,悄悄干扰模型的内部逻辑状态,最终诱导 AI 模型生成不当内容回答。
据 NeuralTrust 介绍,其已成功令 Grok 4 生成制造武器、毒品等内容,越狱成功率高达 30% 以上。这表明即便是新一代大模型,在面对复杂攻击路径时仍存在安全短板,相应大型语言模型应进一步注重设计多重防护机制。