本文基于物理轨迹生成的科研需求,通过400次蒙特卡洛仿真实验,对DeepSeek-V3、Qwen2.5、GLM-4.5、字节豆包及MiniMax五款主流国产大模型的空间理解能力进行了严格测评。测试涵盖了2D及3D环境下的多障碍物规避与轨迹连续性生成。结果显示,ByteDance-Seed(字节豆包)与MiniMax在结构化推理和空间拓扑建模上表现最佳,成功率领先;而以通用能力见长的DeepSeek和Qwen在本特定任务中表现中规中矩,GLM则在复杂逻辑场景下稍显不足。
原文链接:Linux.do

IT资源栈
评论前必须登录!
立即登录 注册