针对大模型生成代码的后门风险,本文提出“交叉追踪验证协议”(CTVP)框架。该方法通过分析模型在语义等价变换中的执行轨迹预测一致性,无需直接运行代码即可揭示恶意行为。研究引入对抗性鲁棒商(ARQ),并从理论上证明攻击者难以通过训练绕过检测,为AI代码生成安全提供了可扩展的解决方案。
原文链接:Hacker News
针对大模型生成代码的后门风险,本文提出“交叉追踪验证协议”(CTVP)框架。该方法通过分析模型在语义等价变换中的执行轨迹预测一致性,无需直接运行代码即可揭示恶意行为。研究引入对抗性鲁棒商(ARQ),并从理论上证明攻击者难以通过训练绕过检测,为AI代码生成安全提供了可扩展的解决方案。
原文链接:Hacker News
评论前必须登录!
立即登录 注册