这是一个专为“红队”测试设计的 AI Agent 挑战平台。作者原本将其作为内部安全工具,为了打破开发者思维定势、发现更多漏洞而将其开源。每个挑战都包含配备真实工具的实时 Agent 和公开的系统提示词,挑战结束后会公开完整的攻击对话记录和防御日志。首个挑战(诱导 Agent 调用被禁工具)仅耗时约 60 秒即被攻破,充分揭示了当前 Agent 防御机制的脆弱性。作者认为,构建既听话又安全且能稳定使用工具的 Agent 依然困难,这表明我们离大规模安全部署还有很长的路要走。
原文链接:Hacker News

IT资源栈
评论前必须登录!
立即登录 注册