多图理解崩塌?揭秘VLM“胡说”机制与两阶段Map-Reduce工程解法

本文深入探讨了多模态大模型(VLM)在处理多图输入时出现的性能崩塌与幻觉问题。作者发现,相比于网页端,API调用在多图场景下准确率和一致性大幅下降,根源在于海量视觉Token导致的“上下文稀释”和“Lost in the Middle”效应。文章详细解析了图像Token化机制,并提出了一种工程化解决方案——两阶段Map-Reduce模式:第一阶段利用视觉模型对单图提取结构化JSON摘要,第二阶段由文本模型基于摘要进行推理。该方法有效解决了注意力分散问题,虽增加了成本与延迟,但显著提升了多图任务的鲁棒性。

原文链接:Linux.do

抢沙发

评论前必须登录!

立即登录   注册