7款大模型无人机操控测试:只有最便宜的Gemini Flash赢了

SnapBench是一项测试大模型具身智能能力的基准实验,要求模型在3D世界中驾驶无人机寻找并识别生物。在对7款前沿LLM的测试中,仅有价格最低的Gemini Flash成功完成任务,而公认的“最强模型”Claude Opus却因无法控制俯冲高度而惨败。研究表明,在空间推理和具体执行层面,昂贵且庞大的模型未必优于轻量级模型,特定场景下的指令遵循和物理交互能力才是关键。

原文链接:Hacker News

抢沙发

评论前必须登录!

立即登录   注册