研究发现:LLM自我修正迭代3次收益最高,超过5次将引入新错误

基于EMNLP 2025的一篇论文,研究人员提出了LLM自我修正的概率推断缩放理论。该模型通过数学推导证明,在模型自我审查过程中存在理论精度天花板。数据显示,两轮迭代即可获得75%的改进量,而**三轮迭代是获取最高边际收益的最佳点**。研究警告称,超过五轮审查后,模型引入新错误的风险将超过发现旧错误的收益。此外,实践经验表明,显式要求Agent从不同角度进行审查,能显著优化生成结果。

原文链接:Linux.do

抢沙发

评论前必须登录!

立即登录   注册