国产大模型基础能力大考:DeepSeek 唯一通过逻辑测试,GLM、豆包、MiniMax 惨烈翻车

近期,一项针对国内主流大模型的“幸运转盘”代码生成测试在技术社区引发热议。该测试看似简单,实则对模型的逻辑严密性、多模态渲染及代码执行能力提出了极高要求。测试结果显示,DeepSeek 成为唯一成功完成任务的模型,完美解决了转盘指针与开奖结果逻辑一致性的难题。相比之下,GLM5、豆包 2 Pro 和 MiniMax 2.5 均表现不佳,部分模型甚至出现界面渲染错误和逻辑崩坏,甚至出现了“技术上退步”的现象。这一结果赤裸裸地揭示了当前国内大模型在基础逻辑推理和多模态落地能力上的显著差距。

原文链接:Linux.do

抢沙发

评论前必须登录!

立即登录   注册