飞桨团队正式发布了业界领先的轻量级文档解析视觉语言模型 PaddleOCR-VL-1.6。该模型参数规模仅为 0.9B,但在权威基准测试 OmniDocBench v1.6 中表现卓越,以 96.3% 的精度刷新榜单并登顶,验证了其在文档解析领域的领先地位。PaddleOCR-VL-1.6 在处理复杂文档场景方面实现了显著增强,不仅大幅提升了文本、数学公式和表格的识别准确率,更针对古籍文献、生僻字识别、印章检测以及复杂图表理解等细分难点进行了专项优化。该模型旨在弥合图像/PDF文档与大语言模型之间的数据鸿沟,能够将非结构化的文档内容转化为 Markdown 或 JSON 格式的结构化数据,显著提升了文档信息的数字化与智能化处理效率。目前,该模型权重已在 Hugging Face 平台开源,用户可通过飞桨星河社区体验 API 调用及 MCP 服务,为开发者在构建 RAG 系统或智能文档处理应用时提供强有力的底层支持。
事件分析
💡 核心观点:PaddleOCR-VL-1.6 证明小参数量模型在垂直细分场景可超越通用大模型,精准解决了大模型落地中“文档结构化数据提取”的工程痛点。
原文链接:Linux.do

评论前必须登录!
立即登录 注册