修复CLIP“模态鸿沟”:CS-Aligner利用分布对齐重构视觉语言学习范式

本文分享了一篇入选ICLR 2026的论文CS-Aligner,直击当前CLIP类模型的痛点:仅靠InfoNCE损失函数会导致图文特征在空间分布上产生明显的“模态鸿沟”。CS-Aligner创新性地引入柯西-施瓦茨(CS)散度作为额外监督项,从全局分布层面而非单一样本对层面强制对齐特征。该方法还结合LLM编码器实现了细粒度的Token级语义理解,并利用LoRA高效微调,显著提升了多模态模型的跨模态检索与生成能力。

原文链接:Linux.do

抢沙发

评论前必须登录!

立即登录   注册