遭遇“滑铁卢”:多模态 AI 竟数不清一副麻将,暴露视觉推理硬伤

近期有科技爱好者发现,在向多模态大模型展示一副存在缺失(少一张北风)的中国麻将图片并询问牌数时,多个主流模型均未能识别出错误。这一现象并非个例,它深刻揭示了当前 AI 技术在视觉逻辑推理上的局限性。大模型往往侧重于图像的语义理解而非像素级精确计数,在面对需要高精度细节捕捉的任务时容易出现“幻觉”或遗漏。这也表明,尽管多模态能力飞速发展,但在处理细粒度视觉数据和严谨逻辑验证方面,AI 距离人类水平仍有明显差距,提示开发者需关注模型在精确性维度的优化。

原文链接:V2EX 分享发现

C code80.ai · AI 编码 API 聚合 Claude / GPT 多模型统一接入,稳定不限速,按量计费,几行配置接入 Claude Code。 了解一下 ›

抢沙发

评论前必须登录!

立即登录   注册