GitHub开源仓库rednote-hilab/dots.ocr发布了1.5版本,该工具基于单一视觉-语言模型,在多语言文档布局解析方面达到了SOTA(最先进)水平。此次更新的核心亮点在于创新性地支持将文档中的图表直接转换为可编辑的SVG代码,这一功能超越了传统的OCR识别,实现了对视觉元素的结构化重建。dots.ocr的高效解析能力为处理复杂的PDF、科研文献及商业报表提供了强大的自动化解决方案,显著提升了文档数字化的深度与效率。
原文链接:Linux.do
GitHub开源仓库rednote-hilab/dots.ocr发布了1.5版本,该工具基于单一视觉-语言模型,在多语言文档布局解析方面达到了SOTA(最先进)水平。此次更新的核心亮点在于创新性地支持将文档中的图表直接转换为可编辑的SVG代码,这一功能超越了传统的OCR识别,实现了对视觉元素的结构化重建。dots.ocr的高效解析能力为处理复杂的PDF、科研文献及商业报表提供了强大的自动化解决方案,显著提升了文档数字化的深度与效率。
原文链接:Linux.do
评论前必须登录!
立即登录 注册