飞桨 PaddleOCR-VL-1.6 发布:0.9B 参数登顶 OmniDocBench,强化古籍与复杂文档解析

飞桨团队正式发布了业界领先的轻量级文档解析视觉语言模型 PaddleOCR-VL-1.6。该模型参数规模仅为 0.9B,但在权威基准测试 OmniDocBench v1.6 中表现卓越,以 96.3% 的精度刷新榜单并登顶,验证了其在文档解析领域的领先地位。PaddleOCR-VL-1.6 在处理复杂文档场景方面实现了显著增强,不仅大幅提升了文本、数学公式和表格的识别准确率,更针对古籍文献、生僻字识别、印章检测以及复杂图表理解等细分难点进行了专项优化。该模型旨在弥合图像/PDF文档与大语言模型之间的数据鸿沟,能够将非结构化的文档内容转化为 Markdown 或 JSON 格式的结构化数据,显著提升了文档信息的数字化与智能化处理效率。目前,该模型权重已在 Hugging Face 平台开源,用户可通过飞桨星河社区体验 API 调用及 MCP 服务,为开发者在构建 RAG 系统或智能文档处理应用时提供强有力的底层支持。

事件分析

PaddleOCR-VL-1.6 的发布标志着轻量级多模态模型在垂直领域专业化能力的重大突破。在仅 0.9B 参数量级下实现对更高参数规模模型的性能超越,体现了模型架构优化与训练策略的进步,有利于大幅降低文档智能处理任务的部署成本与算力门槛,对边缘侧设备尤为友好。特别是对古籍和生僻字识别能力的强化,填补了通用 OCR 在文化数字化与高精度存档场景下的短板。从产业角度看,该模型直接输出 Markdown 和 JSON 的能力,精准对接了当前 RAG(检索增强生成)与大模型应用落地的核心需求,即解决“文档结构化提取”这一关键痛点。这种“视觉-语言-结构化数据”的一体化流程,有望加速知识库构建与企业级文档智能问答系统的普及。

💡 核心观点:PaddleOCR-VL-1.6 证明小参数量模型在垂直细分场景可超越通用大模型,精准解决了大模型落地中“文档结构化数据提取”的工程痛点。

原文链接:Linux.do

C code80.ai · AI 编码 API 聚合 Claude / GPT 多模型统一接入,稳定不限速,按量计费,几行配置接入 Claude Code。 了解一下 ›

抢沙发

评论前必须登录!

立即登录   注册