Anthropic发布新一代“Constitutional Classifiers++”安全系统,采用创新的两阶段架构,通过轻量级探针初筛结合强力分类器,显著提升了防御效率。数据显示,新系统将正常请求误拒率降低87%至0.05%,计算开销从24%骤降至约1%。在长达1700小时的红队测试中,未发现稳定奏效的通用越狱漏洞,有效平衡了AI安全与性能成本。
原文链接:Linux.do
Anthropic发布新一代“Constitutional Classifiers++”安全系统,采用创新的两阶段架构,通过轻量级探针初筛结合强力分类器,显著提升了防御效率。数据显示,新系统将正常请求误拒率降低87%至0.05%,计算开销从24%骤降至约1%。在长达1700小时的红队测试中,未发现稳定奏效的通用越狱漏洞,有效平衡了AI安全与性能成本。
原文链接:Linux.do
评论前必须登录!
立即登录 注册