Anthropic 可解释性团队发布最新研究,深入分析了 Claude Sonnet 4.5 的内部机制,成功识别出与“快乐”、“害怕”等特定情绪概念相对应的神经元激活模式。研究发现,这些内部表征的组织方式与人类心理学惊人地相似,情感越相似,其特征向量也越接近。研究强调,尽管这一发现并不代表语言模型具备主观体验或真实的“感受”,但它揭示了这些“情感概念”具有高度的**功能性**,能够实质性驱动模型产生符合情境预期的行为。这项研究打破了AI不可知的“黑盒”,为理解大模型内部逻辑及提升AI安全性提供了重要视角。
原文链接:Linux.do

IT资源栈
评论前必须登录!
立即登录 注册