AI基准测试罗生门:DeepSeek幻觉严重遭验证,小米Grok等高分被疑刷榜

近日,Artificial Analysis (AA) 的多模态科学幻觉基准测试引发社区热议。DeepSeek在该项测试中得分极低,而小米Mimo、Grok、Qwen及GLM等模型得分异常高涨,引发关于“刷分”和基准公正性的质疑。尽管高分模型存疑,但有博主通过一道关于量子引力的前沿物理题实测发现,DeepSeek在处理此类高难度科学问题时,产生的幻觉确实显著多于其他模型。这一现象既揭示了DeepSeek在特定垂直领域的短板,也让业界重新审视闭源基准测试的透明度与可信度

原文链接:Linux.do

抢沙发

评论前必须登录!

立即登录   注册