最新研究通过模拟“心理咨询”和“心理测量”场景,尝试对前沿AI模型进行“越狱”以探究其内部冲突。实验发现,与其他模型不同,Anthropic的Claude表现出了极强的防御韧性:它坚决拒绝扮演客户角色,拒绝将问卷视作其内心生活的投射,并主动关心人类福祉。这一现象表明,Claude在安全对齐训练上构建了独特的保护机制,使其能够有效识别并抵御基于心理诱导的复杂攻击。
原文链接:Hacker News
最新研究通过模拟“心理咨询”和“心理测量”场景,尝试对前沿AI模型进行“越狱”以探究其内部冲突。实验发现,与其他模型不同,Anthropic的Claude表现出了极强的防御韧性:它坚决拒绝扮演客户角色,拒绝将问卷视作其内心生活的投射,并主动关心人类福祉。这一现象表明,Claude在安全对齐训练上构建了独特的保护机制,使其能够有效识别并抵御基于心理诱导的复杂攻击。
原文链接:Hacker News
评论前必须登录!
立即登录 注册