这篇文章利用日本推理小说《首无》约150K token的文本,对DeepSeek、Kimi、Qwen、GLM等8款国产大模型进行了长上下文与逻辑推理能力的极限测试。结果显示,Kimi K2.6与DeepSeek V4(含Flash版)成功经受住了复杂剧情与超长文本的双重考验,精准还原了核心诡计与真凶。相比之下,Qwen 3.6 Max与MiMo等旗舰模型却意外“翻车”,未能通过逻辑推理环节。这一实测揭示了国产大模型在实际应用中“有效上下文”与“逻辑推理能力”的巨大差异。
原文链接:Linux.do

IT资源栈
评论前必须登录!
立即登录 注册