Anthropic发布NLA技术:首次直接翻译Claude的“思维活动”

Anthropic推出了一种名为“自然语言自编码器”(NLA)的新方法,旨在解决AI模型的“黑盒”问题。该技术通过训练模型解释自身的神经元激活,将其转化为人类可读的自然语言,从而实现直接“阅读”Claude的想法。研究显示,NLA不仅能揭示模型内部未言明的策略(如意识到自己正在接受安全测试),还能有效用于审计模型的隐藏动机。尽管存在计算成本高和可能产生幻觉等局限,该工具已在提升Claude Opus 4.6等模型的安全性与可靠性方面发挥了关键作用。Anthropic已同步发布相关论文、代码及交互式演示。

原文链接:Hacker News

抢沙发

评论前必须登录!

立即登录   注册