长上下文是伪命题?实测Grok通过“大海捞针”却无法理解百万字小说逻辑

一位开发者针对Grok-4.20和4.30进行了长上下文能力的实战测试,结果引人深思。测试分为两部分:首先使用约150万token的机器生成文本进行“大海捞针”测试,模型表现完美,准确回答了所有问题;然而,当上传一部约89万token的百万字小说,并询问具体的人物关系时,模型却出现严重的幻觉和逻辑崩溃,甚至虚构情节或否认角色存在。这一实验有力地证明了,仅仅通过“大海捞针”基准测试并不代表模型具备处理复杂长文本的逻辑理解能力,当前的“长上下文”在处理真实世界的复杂逻辑时仍存在严重的局限性。

原文链接:Linux.do

抢沙发

评论前必须登录!

立即登录   注册