纵向PDF转码成盲区:WPS失灵,DeepSeek与豆包也难以招架

一位科技爱好者在Linux.do社区发帖求助,指出处理东亚纵向排版(竖排文字)的PDF文档依然是当前软件和AI的痛点。经实测,WPS等传统办公软件在转换时会出现乱码;而DeepSeek、豆包等头部国产大模型也未能幸免,只能识别出部分文本,无法完美还原。这一现象揭示了多模态大模型虽然在常规场景表现优异,但在处理非标准排版、特殊格式等“长尾场景”时,OCR能力仍存在明显局限,尚未达到真正“办公解放”的预期标准。

原文链接:Linux.do

抢沙发

评论前必须登录!

立即登录   注册