一位开发者在社区反馈,在使用DeepSeek进行多终端项目重构和Debug时,发现当上下文超过400K时,模型出现严重的注意力机制缺陷。主要表现为无法区分A-E五个不同终端,将所有输入错误指向A终端;在Debug过程中陷入“加埋点-收集日志-测试运行”的无效死循环,无法推进问题解决。该实测引发了业界对于大模型“长上下文”有效性的讨论,指出了模型在处理超长文本时可能存在的逻辑连贯性与注意力衰退问题。
原文链接:Linux.do
一位开发者在社区反馈,在使用DeepSeek进行多终端项目重构和Debug时,发现当上下文超过400K时,模型出现严重的注意力机制缺陷。主要表现为无法区分A-E五个不同终端,将所有输入错误指向A终端;在Debug过程中陷入“加埋点-收集日志-测试运行”的无效死循环,无法推进问题解决。该实测引发了业界对于大模型“长上下文”有效性的讨论,指出了模型在处理超长文本时可能存在的逻辑连贯性与注意力衰退问题。
原文链接:Linux.do
评论前必须登录!
立即登录 注册