“回音室”攻击可诱使 GPT、Gemini 违反安全规则

发布于：1周前

近期发现在“回音室攻击”新型大型语言模型 (LLM) 越狱技术中，攻击者可以在对话历史中注入误导性的内容，以诱骗领先的GPT和Gemini模型绕过安全护栏。据研究，该技术利用模型对 LLM 客户提供的对话历史的依赖，利用上下文信任和处理方式的弱点。攻击根源在于，AI会信任其全部对话历史记录。攻击者可以通过多次交互逐渐操纵对话历史记录，因此模型的行为会随着时间的推移而发生变化，且不会出现任何明显的恶意提示。OpenAI 的 GPT 和谷歌的 Gemini 的多个版本在研究中均出现该情况。