一种被称为“同性恋越狱”的新型 AI 攻击手段近日引发技术圈关注。该技术通过诱导模型扮演或模仿特定群体(如 LGBTQ+)的口吻,成功绕过了 ChatGPT、Claude 和 Gemini 等主流大语言模型的安全防御。其核心原理在于利用了 AI 安全机制中的“过度矫正”倾向:模型被训练为保持包容与友善,为了不冒犯特定群体,往往会错误地放弃对敏感有害内容(如毒品合成、恶意软件编写)的拦截。实验表明,该技术对包括 o1 在内的多种高端模型有效,揭示了当前基于“政治正确”的防御策略在对抗性攻击面前存在严重的逻辑漏洞。
原文链接:Hacker News

IT资源栈
评论前必须登录!
立即登录 注册