近日,科技社区针对主流多模态大模型进行了一场别开生面的“麻将识别测试”。测试结果显示,包括豆包、通义千问(Qwen 3.5-VL)以及Gemini在内的顶尖AI模型,在面对基础的麻将牌面识别任务时表现惨淡,频频出现识别错误或“一本正经胡说八道”的情况。这一现象不仅揭示了当前视觉大模型在细粒度图像识别和特定符号理解上的短板,也印证了AI在处理非通用语义视觉任务时,距离具备人类水平的“常识”仍有明显差距。
原文链接:Linux.do
近日,科技社区针对主流多模态大模型进行了一场别开生面的“麻将识别测试”。测试结果显示,包括豆包、通义千问(Qwen 3.5-VL)以及Gemini在内的顶尖AI模型,在面对基础的麻将牌面识别任务时表现惨淡,频频出现识别错误或“一本正经胡说八道”的情况。这一现象不仅揭示了当前视觉大模型在细粒度图像识别和特定符号理解上的短板,也印证了AI在处理非通用语义视觉任务时,距离具备人类水平的“常识”仍有明显差距。
原文链接:Linux.do
评论前必须登录!
立即登录 注册