“回音室”攻击可诱使 GPT、Gemini 违反安全规则

首页 / 快讯 /  正文
发布于:1周前
近期发现在“回音室攻击”新型大型语言模型 (LLM) 越狱技术中,攻击者可以在对话历史中注入误导性的内容,以诱骗领先的GPT和Gemini模型绕过安全护栏。据研究,该技术利用模型对 LLM 客户提供的对话历史的依赖,利用上下文信任和处理方式的弱点。攻击根源在于,AI会信任其全部对话历史记录。攻击者可以通过多次交互逐渐操纵对话历史记录,因此模型的行为会随着时间的推移而发生变化,且不会出现任何明显的恶意提示。OpenAI 的 GPT 和谷歌的 Gemini 的多个版本在研究中均出现该情况。