开发团队 Cosine 发布了一款专为网络安全渗透测试设计的后训练大模型,旨在解决通用模型在面对攻击性安全任务时频繁拒绝回答的问题。该模型摒弃了通用大模型的“对齐拒绝”策略,转而专注于执行代码审计与漏洞利用任务。在技术架构上,该系统采用了多智能体协同模式,由编排器将复杂的渗透任务拆分给多个并行运行的子智能体处理,最后合成完整的安全报告,从而一次性完成对多语言微服务仓库的全面审计。为了保证安全性,团队采用了独特的“外挂式”防护策略,即通过 Go 语言编写的运行时守卫程序拦截所有工具调用。在扫描模式下,守卫程序强制阻断所有写入操作;在测试模式下,则将智能体的网络范围严格限制在用户授权的目标内,实现了确定性的安全边界。目前,该工具已针对 Google 开源的 Bank of Anthos 项目进行了测试,成功发现了整数溢出及各类注入漏洞。
事件分析
该案例展示了将安全逻辑从模型内部转移到外部系统运行时的技术趋势。传统的 RLHF 对齐机制限制了 AI 在专业领域的潜力,而 Cosine 通过构建确定性沙箱,允许模型在受控环境下执行高风险指令,实现了专业性与安全性的解耦。这种“模型负责思考,沙箱负责防守”的架构,不仅解决了红队测试场景的痛点,也为未来构建具备真实操作能力的自动化 AI Agent 提供了可行的工程范式。多智能体技术的引入也进一步证明了分布式架构在处理复杂逻辑链时的优势。
💡 核心观点:将安全控制从模型内核剥离至外部沙箱,是解决通用大模型落地垂直专业领域(如渗透测试)的关键范式转变。
原文链接:Hacker News

IT资源栈
评论前必须登录!
立即登录 注册