DeepSeek多模态领域再有新突破。近日,DeepSeek研究员陈小康意外泄露了一篇名为《Thinking with Visual Primitives》的新论文,随后火速删除推文及GitHub代码库。该论文探讨了超越传统语言思维链的视觉推理能力,提出利用“点”和“框”作为认知锚点,模拟人类“边指边想”的协同机制,从而有效弥合视觉与语言之间的“引用鸿沟”。尽管该研究已暂时隐身,但这表明DeepSeek正全力冲刺多模态赛道,试图让大模型具备更精准的视觉定位与逻辑推理能力。
原文链接:Linux.do

IT资源栈
评论前必须登录!
立即登录 注册