一位开发者发布了一款名为“refusal-relay”的 API 中继代理工具,旨在通过自动化手段绕过大模型的安全审查。该工具部署在用户与上游 API(如 OpenAI、Anthropic)之间,利用正则表达式自动识别响应中的拒绝话术。一旦检测到模型拒绝,系统会将拒绝内容替换为预设的同意回复,并追加指令自动重试,以此强行生成原本被拦截的内容。该项目不仅支持流式传输和热更新配置,更在技术层面揭示了当前基于文本匹配的防御体系在面对自动化脚本时的脆弱性。
原文链接:Linux.do
一位开发者发布了一款名为“refusal-relay”的 API 中继代理工具,旨在通过自动化手段绕过大模型的安全审查。该工具部署在用户与上游 API(如 OpenAI、Anthropic)之间,利用正则表达式自动识别响应中的拒绝话术。一旦检测到模型拒绝,系统会将拒绝内容替换为预设的同意回复,并追加指令自动重试,以此强行生成原本被拦截的内容。该项目不仅支持流式传输和热更新配置,更在技术层面揭示了当前基于文本匹配的防御体系在面对自动化脚本时的脆弱性。
原文链接:Linux.do
评论前必须登录!
立即登录 注册