利用“上下文继承”特性:用户发现通过DeepSeek可绕过部分大模型安全审查

近日,有开发者在技术社区 Linux.do 分享了一种针对特定大语言模型安全审查机制的绕过技巧。该用户在逆向某款应用程序的过程中,发现被称为“Opus 4.7”和“GPT 5.4 High”的模型版本在处理敏感请求时会出现严格的拦截提示。为了突破这一限制,该用户提出了一种基于“上下文继承”的解决方案。具体操作方法是利用 DeepSeek 模型对安全性审查较为宽松(俗称“无甲”)的特性,先让其生成工程性代码、分析逻辑或开启特定话题的开头。随后,在不重置会话的情况下,直接将后台模型切换至原本受限制的“Opus 4.7”或“GPT 5.4 High”。实测发现,被切换的模型会默认接受 DeepSeek 生成的上下文作为可信背景,继续进行推理和生成,从而“丝滑”地绕过了原本针对敏感指令的初始防御机制,且无需额外的提示词诱导。这一发现揭示了在多模型共存或支持热切换的 AI 应用中,单一模型的安全防御可能被上下文继承机制所削弱。

事件分析

从技术视角分析,该事件揭示了当前 AI 应用架构中关于上下文管理的安全盲区,即“上下文污染”风险。当应用层允许用户在不同大模型间无缝切换且不重置上下文时,安全性较弱的模型(如本例中的 DeepSeek)将成为整个防御链条的短板。攻击者可以利用低防御模型生成恶意内容的“前置上下文”,诱导高防御模型继承并继续生成违禁内容。这种“信任传递”漏洞表明,单纯依赖模型端侧的对齐技术已不足以应对复杂的攻击手段。对于 AI 开发者和平台方而言,这意味着在设计支持多模型调用的 Agent 或 IDE 工具时,必须在模型切换环节引入“上下文清洗”或“意图重检”机制,切断跨模型的信任继承链条,以防止利用模型间安全水位差进行的越狱攻击。

💡 核心观点:多模型无缝切换的便利性正在被安全防御的边界模糊化所抵消,利用“低防御模型”进行上下文污染将成为绕过高安全模型审查的新常态。

原文链接:Linux.do

相关阅读

  • 暂无文章

抢沙发

评论前必须登录!

立即登录   注册