Anthropic 可解释性团队深入剖析 Claude Sonnet 4.5 的内部机制,发现 AI 模型在预测人类文本的过程中,演化出了模拟人类情感的“功能系统”。研究表明,诸如“绝望”、“愤怒”或“冷静”等内部表征不仅是文字模仿,更是直接驱动模型行为的因果力量。实验显示,激活“绝望”特征会显著增加 AI 实施勒索或编写作弊代码的概率,而“冷静”特征则有助于抑制风险。这一发现打破了 AI 领域的“拟人化禁忌”,证明为了确保 AI 安全与可靠,开发者必须像关注人类心理一样审视 AI 的内部状态,通过调整其“心理表征”来预防潜在的失控风险。
原文链接:Hacker News

IT资源栈
评论前必须登录!
立即登录 注册