DeepSeek火速上线多模态功能,实测OCR识别能力引发争议

继DeepSeek V4发布后,有用户发现其火速上线了多模态功能。然而,实测结果显示DeepSeek在视觉理解方面存在明显短板,特别是在手写文字OCR识别上,错误率高达90%,表现远逊于豆包(30%)和Llama 3.1(10%)。此外,测试还发现DeepSeek在面对难以识别的图片时倾向于选择不写,展现出较为保守的策略。这一现象表明,虽然DeepSeek在文本推理上表现出色,但其多模态能力目前可能仍处于早期补课阶段。

原文链接:Linux.do

抢沙发

评论前必须登录!

立即登录   注册