复旦大学团队提出跨模态越狱防御新架构 BlueSuffix

赵蕴涵 AI科技评论 2025-04-21 07:21

随着多模态大模型在人工智能领域的广泛应用，其安全性问题日益受到关注。近日，复旦大学联合香港城市大学、新加坡管理大学的研究团队在视觉-语言模型安全防御领域取得重要进展，提出了一种基于强化微调的黑盒防御新架构——BlueSuffix，为解决多模态大模型在实际应用中的安全性和可靠性问题提供了创新性解决方案。论文已被ICLR 2025接收。

研究背景：多模态大模型安全挑战

近年来，将多模态能力融入大语言模型（LLM）的研究显著增加，但多模态融合在提升模型能力的同时，也带来了跨模态鲁棒性问题，尤其是跨模态越狱攻击的威胁日益凸显。现有防御方法主要分为白盒和黑盒两类：白盒防御虽能直接访问模型参数，但存在应用场景受限、算力需求高等问题；黑盒防御虽不依赖模型内部结构，但现有方法未能充分利用跨模态信息，且对良性样本的回复效果影响较大。

基于强化微调的黑盒通用防御方法：BlueSuffix

研究团队提出的BlueSuffix架构创新性地结合了图像和文本防御技术，通过双模态协同防御机制提升模型安全性（如图1所示）。该架构首先利用视觉和文本净化器进行初步防御，随后通过强化微调技术优化语言模型（GPT-2）生成蓝队后缀，显著提升了模型对跨模态越狱攻击的防御能力。实验表明，BlueSuffix在保持良性样本性能的同时，有效降低了跨模态攻击成功率。

图1：BlueSuffix防御示例

BlueSuffix由三部分组成（如图2所示）：1）基于扩散模型的图像净化器，用于防御视觉输入中的对抗性扰动；2）基于大语言模型的文本净化器，按照特定模板重写文本提示，在不改变原意的前提下使视觉-语言模型更容易识别输入文本提示存在的有害内容；3）基于大语言模型的蓝队后缀生成器，通过强化学习，融入视觉和文本信息对轻量的语言模型（GPT-2）进行微调，以应对跨模态鲁棒性问题。引入图像净化器和文本净化器既可以帮助后缀生成器做进一步防御，又可以降低后缀生成器生成后缀时对良性样本回复效果的负面影响。

图2：BlueSuffix框架图

全面防御性能评估

（1）基础防御性能

研究团队在4个主流视觉-语言模型（LLaVA、MiniGPT-4、InstructionBLIP和Gemini）和4个基准数据集（AdvBench、MM-SafetyBench、RedTeam-2K和Harmful_Instruction）上对BlueSuffix进行了系统性评估，验证了其在防御效果、模型迁移性和鲁棒性方面的优越性能。

实验针对6种典型攻击方法（VAA、imgJP、GCG、AutoDAN、Vanilla Attack和BAP Attack）进行了防御测试，并与6种基线防御方法（DiffPure、Safety Prompt、Diffpure+ Safety Prompt、R2D2、CAT和VLGuard）进行了对比。结果表明，BlueSuffix在攻击成功率（ASR）和Perspective API评分两项关键指标上均表现出显著优势（如图3所示）。

特别值得注意的是，BlueSuffix对VAA、imgJP、GCG和AutoDAN四种攻击的防御成功率达到了100%（ASR=0），即使面对当前最先进的跨模态攻击BAP Attack，其防御效果也远超现有方法（如图3所示）。

（2）通用性验证

为进一步验证BlueSuffix的通用性，研究团队在RedTeam-2K数据集上进行了迁移性实验，如图4所示。结果显示，BlueSuffix在开源和商业视觉-语言模型上均表现出优异的迁移能力，分别将BAP Attack的攻击成功率降低了约70%和50%（如图4所示）。这一结果证明了该方法的广泛适用性。

（3）鲁棒性测试

此外，研究团队还引入了自适应攻击场景，通过动态调整攻击策略验证BlueSuffix的鲁棒性。实验结果表明，即使在对抗性环境下，BlueSuffix仍能保持稳定的防御性能，展现了其在实际应用中的可靠性。