DeepSeek被曝悄然上线原生多模态能力,突破传统OCR限制

近日,科技社区有用户在测试DeepSeek APP时发现,该模型似乎已悄然解锁了原生多模态能力。此前,DeepSeek在处理图片时主要局限于OCR(光学字符识别)文字提取,而最新的测试显示,原有的“只能识别文字”限制提示已消失。用户在APP端的沙盒环境中发现,系统提示存在可调用图片输入的“代码解释器”工具。这一变化表明,DeepSeek可能已具备对图片内容的直接理解与视觉推理能力,而不仅仅是提取文本。若该功能全面开放,将标志着DeepSeek在追赶OpenAI GPT-4o等顶尖模型的多模态竞争上迈出了关键一步。

原文链接:Linux.do

抢沙发

评论前必须登录!

立即登录   注册