近期有开发者利用 GitHub 上的“大海捞针”测试工具,对谷歌 Gemini 3.1 Pro(包括 High 模式)与 OpenAI 的 GPT-5.2-High 进行了上下文检索能力对比。测试结果显示,Gemini 3.1 Pro 在长文本处理上的表现不如 GPT-5.2-High。不过,测试者也明确表示该结果仅供参考,并指出 GPT-5.2 的 xhigh 模式在测试中存在空回复等不稳定情况,这一发现引发了社区对 Context Arena 榜单准确性的讨论。
原文链接:Linux.do
近期有开发者利用 GitHub 上的“大海捞针”测试工具,对谷歌 Gemini 3.1 Pro(包括 High 模式)与 OpenAI 的 GPT-5.2-High 进行了上下文检索能力对比。测试结果显示,Gemini 3.1 Pro 在长文本处理上的表现不如 GPT-5.2-High。不过,测试者也明确表示该结果仅供参考,并指出 GPT-5.2 的 xhigh 模式在测试中存在空回复等不稳定情况,这一发现引发了社区对 Context Arena 榜单准确性的讨论。
原文链接:Linux.do
评论前必须登录!
立即登录 注册