近日,Artificial Analysis (AA) 的多模态科学幻觉基准测试引发社区热议。DeepSeek在该项测试中得分极低,而小米Mimo、Grok、Qwen及GLM等模型得分异常高涨,引发关于“刷分”和基准公正性的质疑。尽管高分模型存疑,但有博主通过一道关于量子引力的前沿物理题实测发现,DeepSeek在处理此类高难度科学问题时,产生的幻觉确实显著多于其他模型。这一现象既揭示了DeepSeek在特定垂直领域的短板,也让业界重新审视闭源基准测试的透明度与可信度。
原文链接:Linux.do

IT资源栈
评论前必须登录!
立即登录 注册