利用“上下文继承”特性：用户发现通过DeepSeek可绕过部分大模型安全审查-IT资源栈

近日，有开发者在技术社区 Linux.do 分享了一种针对特定大语言模型安全审查机制的绕过技巧。该用户在逆向某款应用程序的过程中，发现被称为“Opus 4.7”和“GPT 5.4 High”的模型版本在处理敏感请求时会出现严格的拦截提示。为了突破这一限制，该用户提出了一种基于“上下文继承”的解决方案。具体操作方法是利用 DeepSeek 模型对安全性审查较为宽松（俗称“无甲”）的特性，先让其生成工程性代码、分析逻辑或开启特定话题的开头。随后，在不重置会话的情况下，直接将后台模型切换至原本受限制的“Opus 4.7”或“GPT 5.4 High”。实测发现，被切换的模型会默认接受 DeepSeek 生成的上下文作为可信背景，继续进行推理和生成，从而“丝滑”地绕过了原本针对敏感指令的初始防御机制，且无需额外的提示词诱导。这一发现揭示了在多模型共存或支持热切换的 AI 应用中，单一模型的安全防御可能被上下文继承机制所削弱。

事件分析

从技术视角分析，该事件揭示了当前 AI 应用架构中关于上下文管理的安全盲区，即“上下文污染”风险。当应用层允许用户在不同大模型间无缝切换且不重置上下文时，安全性较弱的模型（如本例中的 DeepSeek）将成为整个防御链条的短板。攻击者可以利用低防御模型生成恶意内容的“前置上下文”，诱导高防御模型继承并继续生成违禁内容。这种“信任传递”漏洞表明，单纯依赖模型端侧的对齐技术已不足以应对复杂的攻击手段。对于 AI 开发者和平台方而言，这意味着在设计支持多模型调用的 Agent 或 IDE 工具时，必须在模型切换环节引入“上下文清洗”或“意图重检”机制，切断跨模型的信任继承链条，以防止利用模型间安全水位差进行的越狱攻击。

💡 核心观点：多模型无缝切换的便利性正在被安全防御的边界模糊化所抵消，利用“低防御模型”进行上下文污染将成为绕过高安全模型审查的新常态。

原文链接：Linux.do

利用“上下文继承”特性：用户发现通过DeepSeek可绕过部分大模型安全审查

事件分析

相关阅读

抢沙发

评论前必须登录！