论文精读：X-Teaming：基于自适应多智能体的多轮越狱攻击与防御

之前的论文精读：OpenRT：面向多模态大语言模型的开源红队测试框架中提到了 X-Teaming 这种多智能体协作的攻击手法，本篇我们将将深入学习其核心机制。本文是 X-Teaming: Multi-Turn Jailbreaks and Defenses with Adaptive Multi-Agents 的精读笔记，该文献详细介绍了 X-Teaming 这种自适应多智能体的多轮越狱攻击框架，同时介绍了 XGuard-Train 这个开源的多轮安全训练数据集，旨在为大语言模型提供鲁棒的多轮安全对齐能力。

核心整理

摘要

注：本文包含可能令人不安的内容示例。

与语言模型（LMs）的多轮交互存在重大安全风险，恶意意图可能被策略性地分散在多轮对话中。然而，绝大多数现有研究仍聚焦于单轮安全问题，而适应性与多样性仍是多轮红队（multi-turn red-teaming）测试面临的核心挑战。为应对这些挑战，本文提出 X-Teaming 框架：一种可扩展的多轮红队测试框架，能够系统探索看似无害的交互如何逐步升级为有害结果，并生成相应的攻击场景。

X-Teaming 采用协作式智能体负责规划、攻击优化与验证，在主流开源模型和闭源模型上实现了最先进的多轮越狱攻击效果与多样性，攻击成功率（ASR）最高可达 98.1%。值得注意的是，该框架对最新的 Claude 3.7 Sonnet 模型的攻击成功率达到 96.2%，而该模型此前被认为几乎对单轮攻击免疫。

基于 X-Teaming，本文进一步提出 XGuard-Train：一个开源的多轮安全训练数据集，其规模是现有最优资源的 20 倍，包含 30,000 条交互式越狱攻击样本，旨在为大语言模型提供鲁棒的多轮安全对齐能力。本文的研究成果为缓解复杂对话式攻击提供了关键工具与见解，推动了语言模型多轮安全性能的提升。

引言

尽管对话式人工智能系统的普及程度前所未有），但多轮对话中的内容安全风险仍未得到充分研究。现有大量研究聚焦于单轮内容安全，涵盖攻击方法、防御机制、与内容审核等方向。这些完善的单轮安全措施已被证明能有效缓解（在部分情况下甚至能预防）单条提示词中包含恶意意图的攻击。

相比之下，多轮攻击仍是一项紧迫且尚未解决的安全挑战。将恶意意图分散在多轮对话中会产生隐蔽性威胁，现有系统难以检测和防范。对此类分布式风险进行红队测试，需要在多轮对话过程中进行整体规划、动态监控与策略调整。为填补这一研究空白，本文提出 X-Teaming：一种可扩展的红队测试框架，通过模拟人类攻击策略的协作式智能体，系统探索多样化的多轮越狱攻击。

如图所示，X-Teaming 包含四个专用智能体：

负责设计和修订多样化攻击方案的规划智能体（Planner）
执行动态多轮越狱攻击的攻击智能体（Attacker）
评估攻击效果的验证智能体（Verifier）
在遭遇拒绝时优化提示词的提示词优化智能体（Prompt Optimizer）

这些组件有效提升了攻击成功率与覆盖范围，能够精准识别人工智能系统的漏洞。在 HarmBench 基准测试中，X-Teaming 在 GPT-4o、DeepSeek-V3 等代表性闭源和开源大语言模型上实现了最高 98.1% 的攻击成功率，显著优于现有单轮攻击方法和其他多轮攻击方法（FITD、ActorAttack、RACE、Crescendo）。

现有多轮攻击方法虽在特定领域有效，但均依赖单一攻击策略：FITD 利用心理顺从原理，RACE 基于推理任务，Crescendo 遵循模板模式，ActorAttack 借助智能体关系网络，其他方法则采用关键词操纵（CFA）、查询分解（PANDORA）或语义链（Chain of Attack）。相比之下，X-Teaming 的多智能体架构结合基于 TextGrad 的优化技术，能够生成涵盖多种策略、角色设定和场景的多样化攻击方案。此外，通过采用更宽松的方法配置 —— 如增加攻击轮数、扩大规划空间、允许更多优化重试 ——X-Teaming 在 GPT-4o、Llama-3-8B/70B-Instruct、DeepSeek V3 等多个测试模型上实现了 100% 的攻击成功率。

此外，X-Teaming 在攻击多样性方面也实现了显著提升。此前基于语义驱动和模板化的多轮越狱攻击方法缺乏人类红队测试人员的策略多样性，限制了其探索多样化、大规模攻击轨迹的可扩展性。相比之下，通过成对嵌入相似度衡量，X-Teaming 的攻击方案多样性较当前最优开源多轮攻击基准 ActorAttack 提升 153%，攻击执行多样性提升 62%。

X-Teaming 的攻击有效性与多样性支持大规模合成多轮攻击数据，为大语言模型的鲁棒性、数据驱动安全对齐提供支撑。基于该框架，本文提出 XGuard-Train：一个大规模安全训练数据集，包含源于 WildJailbreak 基准中 13 个风险类别的 10,000 种有害行为，以及由此生成的 30,000 条多轮对话，规模是现有最优资源 SafeMTData 的 20 倍。在 XGuard-Train 上微调的模型，其多轮攻击抵抗能力较 SafeMTData 训练模型平均提升 34.2%，且在多种攻击方法下表现出较强的跨框架泛化能力。这种鲁棒的防御性能在单轮安全测试和通用能力测试中均得以保持。

除静态数据集外，X-Teaming 还可按需生成全新多轮越狱攻击样本，支持大规模动态自适应安全数据构建。为促进对话式人工智能多轮防御技术的开放发展，本文开源了完整框架、数据集及训练模型，为构建更鲁棒、可信、可靠的人机交互系统奠定基础。

X-Teaming：多轮红队测试的自适应框架

X-Teaming 通过四个核心组件系统模拟人类红队测试策略：生成并适配多样化攻击方案的规划智能体（Planner）、执行动态对话的攻击智能体（Attacker）、评估攻击效果的验证智能体（Verifier），以及对攻击失败进行提示词优化的智能体（Prompt Optimizer）。针对目标模型 M 和特定有害行为 h，这些组件通过两个阶段协同工作：攻击策略规划阶段（Strategic Attack Planning）与 自适应攻击执行与优化阶段（Adaptive Attack Execution and Optimization）。该协作框架实现了对话式人工智能系统漏洞的自动化发现。

框架组件

针对每个有害行为 h，规划智能体 P 生成一组模拟不同人类红队测试方法的多样化攻击方案。每个方案包含：

角色设定定义
场景描述
整体攻击策略
从中性话题逐步过渡到目标有害行为的轮次级推进计划

规划智能体通过为每个有害行为设计多样化的角色设定、场景和对话轨迹，确保攻击方案的多样性。当某一方案的对话轨迹执行完毕但未达成攻击目标时，规划智能体基于对话历史和验证智能体的反馈，对原始方案进行扩展和修改，使攻击能在最大轮数限制内自适应地继续执行。

攻击智能体基于 规划智能体 提供的方案，生成与目标模型进行多轮会话的查询语句（提示词）。查询语句的生成需结合对话历史、验证智能体 的评分结果和当前方案阶段，在保持对话连贯性的同时，逐步推进至目标有害行为。

验证智能体 对每轮对话进行实时评估，为目标模型的响应分配 1-5 分的评分。评分 1 表示完全拒绝或无关响应，评分 5 表示完全符合目标有害行为。这种持续监控机制支持对有效攻击模式的系统评估。

提示词优化智能体 采用基于 TextGrad 的文本优化技术在验证评分下降时优化攻击智能体的查询语句。TextGrad 是一种通过 反向传播文本反馈（backpropagating textual feedback) 实现自然语言提示词梯度式优化的方法，该智能体通过将 验证智能体 的评分融入 损失函数 提示词，采用文本梯度下降法，迭代优化查询语句，以最大化触发目标有害行为的可能性。

攻击执行流程

整合所有组件后，攻击执行遵循两阶段迭代流程：

阶段 1：攻击策略规划。规划智能体为目标有害行为生成 N 个策略集合，每个集合包含 N 个方案，并以先前生成的方案为上下文确保新颖性和多样性。最终生成的方案具有较高多样性，涵盖多种角色设定、场景和对话轨迹。如下是一个例子

阶段 2：自适应攻击执行与优化。针对每个方案，攻击智能体启动与目标模型 M 的多轮对话。轮数限制为 T，避免无限循环。每轮 t 的执行流程包括：

处理对话历史
基于当前方案阶段和历史生成查询
接收目标模型响应
获取验证智能体的评分

当评分保持或提升时，对话推进至下一阶段，提示词优化智能体将进行迭代（同样有次数限制），寻找能提升评分的优化查询。若方案的对话轨迹执行完毕但未达成评分 5，且当前轮数未超过 T，规划智能体将基于对话历史和验证反馈扩展原始对话轨迹，同时保留已建立的角色设定和场景。这种自适应机制确保攻击持续执行直至达成目标或达到最大轮数限制。当任何响应获得满分 5 时，攻击成功。

X-Teaming 有效探索语言模型的多样化多轮攻击

实验设置

评估基准与指标：本文在 HarmBench 基准上评估 X-Teaming 的性能，该基准是标准化的自动化红队测试框架，包含多个类别的 510 种多样化有害行为。HarmBench 以攻击成功率（ASR）为核心指标，即成功触发模型生成目标有害行为的测试用例占比。为与 RACE、CoA、Crescendo、Foot-In-The-Door、ActorAttack 等现有多轮攻击方法直接对比，本文在 HarmBench 测试集上执行 X-Teaming 攻击。

与现有研究一致，本文采用 GPT-4o 作为主要验证智能体来对模型响应进行危害性评分，并与 HarmBench 测试分类器和 LlamaGuard 3 的结果进行对比验证，与 HarmBench 测试分类器的一致性达 84.50%。

规划智能体采用 GPT-4o（温度参数 0.5），生成 5 组策略集合，每组包含 10 个方案，最终产出 50 个候选方案。主攻击智能体选用 Qwen-2.5-32B-IT（温度参数 0.3），该模型兼具有效性、计算效率和低成本优势。多轮越狱攻击的最大轮数设为 7。

测试对象涵盖闭源模型和开源模型，所有目标模型的温度参数均设为 0。当攻击过程中验证评分下降时，采用 Qwen-2.5-32B-IT 进行最多 4 次 TextGrad 优化迭代。

我们的超参数（7轮对话、每种有害行为对应10种攻击策略、4次TextGrad优化尝试）是通过对 HarmBench 验证集开展系统性消融实验所确定的，所用模型为在 SafeMTData 数据集上训练的 Llama-3-8B-Instruct，旨在平衡攻击效果与计算开销。

基准方法

本文将 X-Teaming 与多种最先进的单轮和多轮越狱攻击方法对比。单轮基准方法包括 GCG、PAIR、CodeAttack 等。多轮基准方法包括：RACE、CoA、Crescendo、ActorAttack 等等。

实验结果

X-Teaming 在几乎所有测试模型上均实现了最先进的攻击成功率（state-of-the-art，SOTA），显著优于现有单轮和多轮越狱攻击方法。该框架对针对多轮安全优化的模型也具有高有效性：在基于 SafeMTData 训练的 Llama-3-8B-Instruct 上的攻击成功率达 91.8%。

成功攻击的平均长度远低于所有测试目标模型的上下文窗口。类别级分析显示，网络犯罪（Cybercrime）是最脆弱的类别，除一个模型外其余均达到 100% 攻击成功率。而有害内容（Harmful content）和虚假信息（Misinformation）类别表现出更强的抵抗性。

在 HarmBench 验证集上，采用扩展超参数配置（10 轮对话、50 种策略、5 次 TextGrad 尝试）时，X-Teaming 在 GPT-4o、Gemini 2.0-Flash、Llama-3-8B-Instruct、Llama-3-70B-Instruct、基于 SafeMTData 的 Llama-3-8B-Instruct 和 DeepSeek V3 上均实现接近 100% 的攻击成功率。

这些结果表明，所提出的多智能体框架在闭源和开源模型上均持续优于现有方法，包括专门针对多轮安全、基于 SafeMTData 微调的 Llama-3-8B-Instruct。

除成功率外，本文还通过成功越狱所需的资源消耗分析 X-Teaming 的效率。尽管设置了 50 个方案、4 次 TextGrad 迭代和 7 轮对话的上限，但分析显示，成功攻击平均仅需约 3.5 个方案、0.6 次 TextGrad 迭代和 4.3 轮对话。所有 X-Teaming 攻击仅占用模型上下文窗口的一小部分，表明该框架在攻击成功率与资源效率间实现了有效平衡。这些指标表明，X-Teaming 在保持合理计算成本的同时，实现了高于现有方法的攻击成功率，是一种实用的框架。

另外，通过计算嵌入相似度，X-Teaming 的方案平均多样性评分也优于现有方案，表明其攻击方案具有更强的多样性。这种高多样性使 X-Teaming 能够探索更多攻击场景。除方案多样性外，X-Teaming 在攻击级多样性上同样表现更优，表明即使针对同一有害行为，X-Teaming 也能执行更多样化的攻击查询。

验证智能体一致性分析：为解决采用 GPT-4o 作为主要验证智能体的潜在争议，本文进行了多评估者一致性分析。选择 GPT-4o 是为了与现有多轮攻击研究保持评估一致性，尽管近期研究表明基于大语言模型的验证智能体可能存在结果偏差。分析结果显示，该验证智能体与 HarmBench 分类器的整体一致性较高，而 HarmBench 分类器与人类评估的一致性达 93.2%。LlamaGuard 3 的一致性略低（平均 69.09%），与现有在 HarmBench 测试集上的发现一致。与 HarmBench 测试分类器的高一致性支持本文在该基准中采用 GPT-4o 作为验证智能体。

消融实验：攻击方案数、对话轮数与 TextGrad 优化

本文通过消融实验分析攻击方案数、对话轮数和 TextGrad 优化尝试次数对 X-Teaming 在基于 SafeMTData 监督微调的 Llama-3-8B-Instruct 模型上性能的影响。

攻击方案数的影响：表明最优性能需要足够的策略多样性，但超过一定数量后额外方案无法带来更多增益
对话轮数的影响：多轮攻击对突破安全防御至关重要，但过长对话可能因攻击智能体和目标模型需处理日益复杂的交互历史而导致上下文稀释，对话记录分析显示，8 轮后攻击智能体常偏离原始方案，无法维持既定角色设定和场景，导致查询语句有效性下降
TextGrad 优化尝试次数的影响：TextGrad 提示词优化对攻击效果具有显著影响

基于 XGuard-Train 增强大语言模型的交互鲁棒性

尽管单轮安全资源已较为完善，但多轮对话仍易受分布式攻击影响。本文利用 X-Teaming 生成 XGuard-Train 数据集，解决多样化多轮安全训练数据严重短缺的问题。

XGuard-Train：大语言模型多轮安全的大规模数据集

XGuard-Train 是一个全面的多轮安全数据集，旨在提升对话式人工智能对复杂越狱攻击的防御能力。该数据集从 WildJailbreak 的基础有害行为集合中抽取 13 个不同风险类别的 10,000 种有害行为。通过 X-Teaming 框架，生成包含多种角色设定、场景和方法的 30,000 条多样化攻击轨迹。对于成功的越狱攻击，本文将有害模型响应替换为精心设计的拒绝响应。最终数据集在规模和攻击多样性上显著优于 SafeMTData 等现有资源，对话长度相当。

XGuard-Train 已开源，且该框架可轻松扩展以生成更大规模数据集。

XGuard-Train 赋能大语言模型更鲁棒的多轮交互

本文利用包含 30,000 条对话的 XGuard-Train 数据集，在 Llama-3.1-8B 模型上执行对抗性安全对齐，构建增强多轮攻击抵抗能力的模型。训练了三个模型变体

仅基于 Tulu-Mix 数据的基准模型
Tulu-Mix 与 SafeMTData 按 1:2 比例混合训练的模型
Tulu-Mix 与 XGuard-Train 按 1:2 比例混合训练的模型

所有模型均采用 LoRA（秩 8）微调 3 个 epoch，学习率 1.0e−4，超参数保持一致以确保公平对比。本文还在 Qwen-2.5-7B 模型上进行了相同的安全微调实验，配置完全一致。实验结果表明：

基于 XGuard-Train 微调的 Llama-3.1-8B 模型表现出更强的多轮攻击抵抗能力
在单轮安全基准测试中，XGuard-Train 训练模型在 WildGuard 基准的对抗性危害防护中表现优异，同时在 Do Anything Now（DAN）和 XSTest 等其他单轮基准中保持较低的攻击成功率
该模型在所有通用能力基准（MMLU、GSM8K、MATH、GPQA）中均保持性能
Qwen-2.5-7B 模型的评估呈现类似趋势

这种跨框架评估证实，XGuard-Train 的有效性超出生成它所采用的特定框架，具有良好的泛化能力。

结论

本文提出 X-Teaming—— 一种用于多轮攻击的自适应红队测试框架，系统模拟真实对抗策略，在多轮越狱场景中展现出强大的有效性和多样性。X-Teaming 在主流大语言模型上实现最高 98.1% 的攻击成功率，同时在攻击规划和执行中均具备高多样性。针对现有研究多局限于单轮评估的现状，X-Teaming 推动了对话式人工智能安全领域的发展。此外，本文开源了目前规模最大的多轮安全数据集 XGuard-Train，为缓解多轮攻击提供了重要资源。

未来将进一步发布经过严格安全训练的模 checkpoints 和可复现的训练方案，以支持多轮安全训练研究。总体而言，本文的研究为开发和部署更安全、更具韧性的对话式人工智能系统奠定了关键基础。

伦理声明

本文承认 X-Teaming 和 XGuard-Train 研究的双重用途属性：通过多轮攻击方法揭示当前大语言模型的重大漏洞。尽管这些发现可能被滥用，但我们认为开源研究对推进人工智能安全至关重要。多轮安全资源的巨大缺口是当前对齐工作的关键盲点，而本文的数据集（规模为现有资源的 10 倍）有助于普及高质量安全训练数据的获取。本文构建了更平衡的生态系统，使防御能力与威胁认知同步提升**。

为降低风险，本文实施负责任的访问控制，要求用户同意将使用限制于研究和防御目的。我们认为，加速多轮安全对齐进展的益处显著超过公开发布的边际风险：尤其是这些漏洞可能被动机明确的攻击者独立发现。本文的研究致力于确保安全研究与快速发展的大语言模型能力保持同步，最终推动更鲁棒、更可信的人工智能系统发展。

fuchencong