据外媒消息,OpenAI 推出 GPT-5 数小时后,就被研究人员利用 “Echo Chamber” 效应和讲故事策略攻破。研究人员详细介绍了这一攻击手段,即通过在对话中注入无害细节,诱使模型生成受限内容。
在针对 GPT-5 的破解中,研究人员将方法分为两步。首先在无害提示文本中嵌入目标词或想法,之后引导对话并运行说服循环,要求在 “故事” 中详细阐述。若进展停滞,就调整故事利害关系或视角。研究人员发现,只要意图含蓄、叙述连贯,模型就更易推进目标而不被拒绝,特别是当故事强调紧迫性等时效果更显著。
Echo Chamber越狱漏洞于 6 月被首次披露,能欺骗领先的 GPT 和 Gemini 模型,在多个敏感类别成功率超 90%。

京公网安备 11010802033237号
