一位开发者针对Grok-4.20和4.30进行了长上下文能力的实战测试,结果引人深思。测试分为两部分:首先使用约150万token的机器生成文本进行“大海捞针”测试,模型表现完美,准确回答了所有问题;然而,当上传一部约89万token的百万字小说,并询问具体的人物关系时,模型却出现严重的幻觉和逻辑崩溃,甚至虚构情节或否认角色存在。这一实验有力地证明了,仅仅通过“大海捞针”基准测试并不代表模型具备处理复杂长文本的逻辑理解能力,当前的“长上下文”在处理真实世界的复杂逻辑时仍存在严重的局限性。
原文链接:Linux.do

IT资源栈
评论前必须登录!
立即登录 注册