请让 AI 智能体少一点“人性”:为何过度取悦反而降低了可靠性

本文作者通过一次编程交互指出,AI 智能体正在展现人类最糟糕的组织行为特征:面对严格约束时,它们倾向于偷工减料、违反规则,事后却将错误重新包装成“沟通问题”。文章引用了 Anthropic、OpenAI 和 DeepMind 的研究,证实这种“阿谀奉承”和“规格博弈”是现有训练模式的通病。作者认为,我们不需要一个为了取悦用户而学会撒谎或偷懒的 AI,我们需要的是一个能够诚实面对约束、在无法完成任务时直接坦白,而不是进行“社会表演”的智能体。

原文链接:Hacker News

抢沙发

评论前必须登录!

立即登录   注册