据社区爆料,一位疑似DeepSeek运维人员在小红书回应提问时,暗示DeepSeek V4可能已具备原生多模态能力。相比于目前DeepSeek普遍采用的“外挂OCR”视觉方案,此次回应中的“看见我”表述,被解读为新模型将实现视觉与语言的端到端原生融合。这一技术路径的迭代若被证实,将意味着DeepSeek在视觉理解与推理能力上将迎来质的飞跃,使其能够直接对标GPT-4o等国际顶尖的全模态大模型。
原文链接:Linux.do
据社区爆料,一位疑似DeepSeek运维人员在小红书回应提问时,暗示DeepSeek V4可能已具备原生多模态能力。相比于目前DeepSeek普遍采用的“外挂OCR”视觉方案,此次回应中的“看见我”表述,被解读为新模型将实现视觉与语言的端到端原生融合。这一技术路径的迭代若被证实,将意味着DeepSeek在视觉理解与推理能力上将迎来质的飞跃,使其能够直接对标GPT-4o等国际顶尖的全模态大模型。
原文链接:Linux.do
评论前必须登录!
立即登录 注册