MRCR 长上下文基准更新:GPT 5.5 拿下榜首,GLM 5.2 力压 DeepSeek V4 Pro

Context Arena 发布了最新一轮的 MRCR v2(大海捞针测试)基准排行榜,重点评测了各大主流 AI 模型在处理 100 万 token(1M)超长上下文窗口时的信息提取精度(AUC)。此次成绩显示,在长文本能力这一关键维度上,OpenAI 的新代际模型“GPT-5.5”以 50.9% 的得分占据榜首,显示出极强的长文本稳定性和召回能力。Anthropic 的 Claude 系列表现依然强劲,Opus 4.6 和 Sonnet 4.6 分别以 46.9% 和 44.4% 紧随其后,优于谷歌的 Gemini 3.5 Flash(43.3%)。在国产大模型的表现方面,榜单数据揭示了一些有趣的排位变化。智谱 AI 的 GLM 5.2 模型在 1M 上下文测试中获得了 33.0% 的得分,这一成绩虽然与顶尖梯队尚有差距,但显著超过了近期备受关注的 DeepSeek V4 Pro(28.3%)以及 Mimo V2.5 Pro(15.3%)。这表明在“大海捞针”这一极端测试场景下,不同模型架构对长距离依赖关系的处理能力存在显著差异。

事件分析

此次排行榜不仅展示了各家模型在长上下文领域的硬实力,也暴露出不同技术路线在处理超长文本时的稳定性差异。数据中出现的“GPT-5.5”和“Claude 4.6”等非官方发布版本号的模型,极有可能是头部厂商内部测试的高阶版本或特定参数配置,暗示了下一代模型可能在长文本理解上已取得突破。在国产梯队中,GLM 5.2 能够在 1M 上下文测试中领先于 DeepSeek V4 Pro,说明智谱在长窗口推理优化上可能采用了更有效的注意力机制或显存管理方案。对于开发者而言,DeepSeek V4 Pro 在该项测试中得分低于 30%,意味着在需要处理海量代码库或长文档摘要的场景下,其“幻觉”风险可能相对高于 GLM 5.2。

💡 核心观点:长上下文窗口已成大模型核心赛场,国产梯队中 GLM 5.2 暂时领跑,但头部厂商的神秘新版本已展现出断层优势。

原文链接:Linux.do

C code80.ai · AI 编码 API 聚合 Claude / GPT 多模型统一接入,稳定不限速,按量计费,几行配置接入 Claude Code。 了解一下 ›

抢沙发

评论前必须登录!

立即登录   注册