一项针对主流大模型的“高语境逻辑”测试结果显示,DeepSeek表现不佳。测试题选用了一句关于“蚊子落在蛋蛋上”的英文讽刺句,要求模型理解“打蚊子”不仅意味着暴力,更会误伤自己。在多次测试中,DeepSeek-V3和R1模型全军覆没,未能正确解读反讽含义。相比之下,国产模型Kimi-k2、GLM-4.5以及GPT-4o、Claude等头部模型均顺利过关。这一结果引发了对DeepSeek推理能力的质疑,同时也展示了国产模型在复杂语境理解上的进步。
原文链接:Linux.do
一项针对主流大模型的“高语境逻辑”测试结果显示,DeepSeek表现不佳。测试题选用了一句关于“蚊子落在蛋蛋上”的英文讽刺句,要求模型理解“打蚊子”不仅意味着暴力,更会误伤自己。在多次测试中,DeepSeek-V3和R1模型全军覆没,未能正确解读反讽含义。相比之下,国产模型Kimi-k2、GLM-4.5以及GPT-4o、Claude等头部模型均顺利过关。这一结果引发了对DeepSeek推理能力的质疑,同时也展示了国产模型在复杂语境理解上的进步。
原文链接:Linux.do
评论前必须登录!
立即登录 注册