近期社区测试发现,阿里千问系列的QWQ及Qwen 3.6等推理模型存在严重的“过度思考”问题。在GSM8K、HotpotQA等多项基准测试中,模型容易陷入思考死循环,表现为反复检查逻辑、切换候选答案或纠结于边界条件,最终导致达到最大Token长度却未能生成最终内容。相比之下,Llama 3.3-70B未出现此类问题。该现象暗示千问内部训练策略可能发生变化,导致推理轨迹在长思考模式下难以收敛。
原文链接:Linux.do
近期社区测试发现,阿里千问系列的QWQ及Qwen 3.6等推理模型存在严重的“过度思考”问题。在GSM8K、HotpotQA等多项基准测试中,模型容易陷入思考死循环,表现为反复检查逻辑、切换候选答案或纠结于边界条件,最终导致达到最大Token长度却未能生成最终内容。相比之下,Llama 3.3-70B未出现此类问题。该现象暗示千问内部训练策略可能发生变化,导致推理轨迹在长思考模式下难以收敛。
原文链接:Linux.do
评论前必须登录!
立即登录 注册