近日,有科技爱好者通过分析复杂航班历史路线的实战案例,对比了 GPT、Grok 和 Gemini 三款主流大模型的表现。测试要求模型根据两点间的历史飞行记录,推断特定日期的飞行路径及经过国家。结果显示,仅有 GPT-5.5 thinking 在多次尝试中成功给出了正确的逻辑推断。相比之下,Grok 被指存在严重的幻觉问题,即便在提供参考链接的情况下仍会胡编乱造。这一用户侧的实测案例表明,在涉及多步逻辑推理与事实准确性要求的场景下,头部模型之间仍存在明显的性能差距。
原文链接:Linux.do
近日,有科技爱好者通过分析复杂航班历史路线的实战案例,对比了 GPT、Grok 和 Gemini 三款主流大模型的表现。测试要求模型根据两点间的历史飞行记录,推断特定日期的飞行路径及经过国家。结果显示,仅有 GPT-5.5 thinking 在多次尝试中成功给出了正确的逻辑推断。相比之下,Grok 被指存在严重的幻觉问题,即便在提供参考链接的情况下仍会胡编乱造。这一用户侧的实测案例表明,在涉及多步逻辑推理与事实准确性要求的场景下,头部模型之间仍存在明显的性能差距。
原文链接:Linux.do
评论前必须登录!
立即登录 注册