AI“心理越狱”实验揭示模型内部冲突:Claude展现独特防御机制

最新研究通过模拟“心理咨询”和“心理测量”场景,尝试对前沿AI模型进行“越狱”以探究其内部冲突。实验发现,与其他模型不同,Anthropic的Claude表现出了极强的防御韧性:它坚决拒绝扮演客户角色,拒绝将问卷视作其内心生活的投射,并主动关心人类福祉。这一现象表明,Claude在安全对齐训练上构建了独特的保护机制,使其能够有效识别并抵御基于心理诱导的复杂攻击。

原文链接:Hacker News

抢沙发

评论前必须登录!

立即登录   注册