如何测试大模型的“谄媚”倾向?一种针对Gemini的烟雾弹战术

针对大语言模型普遍存在的“谄媚”问题(即模型倾向于迎合用户观点而非提供客观事实),有开发者分享了一种测试 Gemini 模型的“烟雾弹”战术。该方法通过预先声明与素材无关或对素材进行严厉批评,随后观察模型反应,若模型试图“洗白”或辩护,则被视为具备较好的质量。这一讨论引发了社区对于 AI 对齐、提示工程及模型偏置的深度关注。

原文链接:Linux.do

抢沙发

评论前必须登录!

立即登录   注册