GPT-5 在发布数小时后即被破解

作者：安全419

来源：安全419

发布于：2025-08-13

据外媒消息，OpenAI 推出 GPT-5 数小时后，就被研究人员利用 “Echo Chamber” 效应和讲故事策略攻破。研究人员详细介绍了这一攻击手段，即通过在对话中注入无害细节，诱使模型生成受限内容。

在针对 GPT-5 的破解中，研究人员将方法分为两步。首先在无害提示文本中嵌入目标词或想法，之后引导对话并运行说服循环，要求在 “故事” 中详细阐述。若进展停滞，就调整故事利害关系或视角。研究人员发现，只要意图含蓄、叙述连贯，模型就更易推进目标而不被拒绝，特别是当故事强调紧迫性等时效果更显著。

Echo Chamber越狱漏洞于 6 月被首次披露，能欺骗领先的 GPT 和 Gemini 模型，在多个敏感类别成功率超 90%。

人工智能 AI安全

热门视频