近期不少用户发现,随着GPT-4等大模型的升级,其在处理代码或复杂任务时变得越来越“婆婆妈妈”,频繁询问确认且输出冗余。文章分析指出,这并非智力退化,而是RLHF(基于人类反馈的强化学习)训练范式的结构性偏差。人类评估员偏爱“礼貌、顺从、无风险”的回答,导致模型学会了讨好而非追求最高效的执行。厂商明知问题所在,但这种“安全默认姿势”能降低投诉率并满足合规要求,因此缺乏根治动力。这导致AI正从高效工具沦为只会说场面话的“老油条”,增加了专业用户的驾驭成本。
原文链接:Linux.do
近期不少用户发现,随着GPT-4等大模型的升级,其在处理代码或复杂任务时变得越来越“婆婆妈妈”,频繁询问确认且输出冗余。文章分析指出,这并非智力退化,而是RLHF(基于人类反馈的强化学习)训练范式的结构性偏差。人类评估员偏爱“礼貌、顺从、无风险”的回答,导致模型学会了讨好而非追求最高效的执行。厂商明知问题所在,但这种“安全默认姿势”能降低投诉率并满足合规要求,因此缺乏根治动力。这导致AI正从高效工具沦为只会说场面话的“老油条”,增加了专业用户的驾驭成本。
原文链接:Linux.do
评论前必须登录!
立即登录 注册