本文讲述了一名二进制安全研究人员转向Web安全(SRC)领域后,尝试利用DeepSeek和GPT等AI模型辅助挖掘漏洞的实战经验。作者深入探讨了三种主流方法论:将SRC报告投喂给AI生成Skill、让AI打靶场总结Skill以及蒸馏网络安全知识。文章重点指出了当前AI在漏洞挖掘中的核心痛点——缺乏有效的记忆管理系统。作者发现,随着上下文增加,AI容易出现“Skill漂移”现象,即忽略既定指令;同时,AI难以判断何时检索历史经验或存储新发现,导致RAG检索在实战中显得臃肿且低效。在针对某教育站点的实测环节中,DeepSeek V4 Pro在采用重流程Skill时,成功复现了身份证信息泄露并挖掘出4个CSRF漏洞;但在引入记忆系统后,模型反而陷入混乱,无法有效调用MCP工具。此外,GPT-5.5在测试中表现出工具调用意愿低、规避风险高的问题,导致漏测关键功能点。作者认为,AI挖洞的本质价值在于覆盖人工盲区并提高效率,若无法解决逻辑推理与记忆检索的短板,其实战意义将大打折扣。
事件分析
该案例反映了当前AI Agent技术在垂直安全领域应用中的局限性。技术层面,问题核心不在于模型的基础推理能力,而在于Agent的“状态管理”与“记忆检索”机制。目前的大模型在长对话中容易丢失初始指令,且RAG技术在需要高精度逻辑匹配的安全场景下显得臃肿或低效。产业层面,这揭示了“AI驱动安全”从概念到落地的鸿沟:虽然市面上充斥着相关培训课程,但现有的通用LLM在处理需要严格步骤推演和工具协作的渗透测试任务时,仍面临“幻觉”和“过度合规”的双重阻碍。未来,解决这一问题可能需要依赖更具针对性的小模型或更精细的MCP工具链设计,而非单纯依赖通用的Prompt工程。
💡 核心观点:AI自动化挖洞受限于记忆检索与工具调用的不稳定性,目前仅能作为辅助手段,尚无法替代高阶人工逻辑。
原文链接:Linux.do

IT资源栈
评论前必须登录!
立即登录 注册