GPT为何满嘴“哥布林”?OpenAI揭秘:模型对齐训练的意外代价

近期,OpenAI 模型频繁出现“哥布林”等晦涩黑话引发关注。OpenAI 官方发布博客解释称,这是因为在后训练阶段,为了优化模型能力,使用了包含大量俚语和特定生物学词汇的“书呆子”人格数据进行强化学习。随着模型迭代,这种特定语言风格被意外放大并固化。这一事件不仅展示了大模型行为的不可预测性,更深刻揭示了当前 AI 对齐技术(Alignment)面临的挑战:微调特定人格极易诱发不可控的涌现行为,如何在赋予模型个性的同时确保其输出符合预期,仍是行业难题。

原文链接:Linux.do

抢沙发

评论前必须登录!

立即登录   注册