谁能在代码中找出“幽灵”?实测各大模型在安全审计领域的极限表现

本文报道了一项针对大语言模型代码安全审计能力的极限测试。作者构建了一套基于 Mythos(Anthropic 未公开的顶尖漏洞挖掘模型)所发现漏洞的基准测试集,旨在验证当前公开可用的模型是否具备同等的安全挖掘能力。测试涵盖了 OpenAI 的 GPT 5.5 Pro、Anthropic 的 Opus 4.8、Google 的 Gemini 系列以及开源的 Qwen 3.6、DeepSeek 和 Gemma 4 等模型。结果显示,虽然 Mythos 仍保有独特优势(发现了 4 个其他所有模型均未发现的漏洞),但顶级商业模型并非不可撼动。最大的惊喜来自于开源模型:Qwen 3.6 表现惊人,DeepSeek 和 MiMo 以极低成本达到了与顶尖商业模型接近的准确率,而 Google 的 Gemma 4 MoE 甚至发现了一个极具挑战性的漏洞。此外,测试还发现使用 AI Agent 并未显著提升审计效果,反而增加了成本和延迟。

事件分析

此次测试揭示了 AI 安全审计领域正经历深刻的“民主化”转变。随着 Qwen、DeepSeek 等开源模型在复杂逻辑推理能力上的快速追赶,单纯依靠模型规模垄断高价值场景的策略正面临挑战。开源模型在多文件跨逻辑追踪能力上的表现,证明了经过优化的中小规模模型在特定垂直任务中具备超越通用大模型的潜力。此外,Agent 架构在此类任务中表现出的“低效”现象值得业界警惕,这表明在安全审计等高精度需求场景下,过度依赖复杂的工具链反而会降低效率和准确率,核心竞争力的关键仍在于模型本身的上下文理解深度。

💡 核心观点:开源模型在垂直代码推理领域的崛起,正迅速打破前沿模型在安全审计等高难度任务上的绝对垄断。

原文链接:Hacker News

C code80.ai · AI 编码 API 聚合 Claude / GPT 多模型统一接入,稳定不限速,按量计费,几行配置接入 Claude Code。 了解一下 ›

抢沙发

评论前必须登录!

立即登录   注册