多模态大模型“团战”失败?手写菜单识别竟成顶级AI的软肋

一则来自技术社区的帖子引发了广泛关注,该测试揭示了主流多模态大模型在特定场景下的实际短板。测试要求模型从包含复杂手写数字和勾选标记的菜单图片中,精准提取菜品名与数量,并强制输出为无Markdown干扰的YAML格式。结果显示,包括GLM-5V、Qwen3 VL、Kimi k2.5及Gemini 3.1 Pro在内的多款顶尖模型均“全军覆没”,未能完全满足逻辑判断与格式输出的双重约束。这一现象不仅暴露了现有SOTA模型在处理手写体噪点和复杂指令遵循方面的局限性,也打破了业界对视觉模型泛化能力的过度乐观预期。

原文链接:Linux.do

抢沙发

评论前必须登录!

立即登录   注册