实测五款国产大模型:字节豆包在空间理解与轨迹规划中意外夺冠

本文基于物理轨迹生成的科研需求,通过400次蒙特卡洛仿真实验,对DeepSeek-V3、Qwen2.5、GLM-4.5、字节豆包及MiniMax五款主流国产大模型的空间理解能力进行了严格测评。测试涵盖了2D及3D环境下的多障碍物规避与轨迹连续性生成。结果显示,ByteDance-Seed(字节豆包)与MiniMax在结构化推理和空间拓扑建模上表现最佳,成功率领先;而以通用能力见长的DeepSeek和Qwen在本特定任务中表现中规中矩,GLM则在复杂逻辑场景下稍显不足。

原文链接:Linux.do

抢沙发

评论前必须登录!

立即登录   注册