百度推出Unlimited-OCR:基于DeepSeek架构的长文档解析开源模型

百度近日在GitHub和ModelScope社区发布了名为“Unlimited-OCR”的开源项目,旨在推动DeepSeek-OCR模型的边界,实现“单次长视野文档解析”。该项目不仅发布了技术论文,还提供了完整的推理代码和部署方案。Unlimited-OCR的核心在于处理长文档及多页PDF的能力,其测试环境基于Python 3.12、CUDA 12.9及PyTorch 2.10,支持在NVIDIA GPU上高效运行。模型采用HuggingFace Transformers架构,支持两种推理配置:“gundam”模式采用裁剪策略处理高分辨率图像,“base”模式则适用于标准文档及多页PDF解析,最大上下文长度可达32768。为了解决长文本生成中的重复问题,模型内置了N-gram重复惩罚机制。在部署层面,Unlimited-OCR除支持本地推理外,重点引入了SGLang作为服务端加速引擎。通过SGLang,用户可搭建OpenAI兼容的API服务,利用自定义Logit处理器优化长文档解析质量,并支持对PDF进行批量并发处理。代码库现已开源,开发者可直接通过HuggingFace或GitHub下载使用。

事件分析

从技术视角分析,Unlimited-OCR标志着文档解析技术正从传统的计算机视觉识别模式,向基于大语言模型的生成式理解范式转变。利用Transformer架构的长上下文处理能力,该模型能更好地保持多页文档间的语义连贯性,解决了传统OCR工具在处理复杂排版或跨页内容时的碎片化问题。产业层面,百度基于DeepSeek架构进行迭代,既认可了该架构在视觉与语言结合上的高效性,也展示了通过SGLang等高性能推理优化技术(如FlashAttention)来降低大模型部署成本的趋势。这种“开源模型+高效推理引擎”的组合,为构建企业级私有文档智能处理系统提供了极具性价比的参考方案,特别是对于RAG(检索增强生成)场景下的数据清洗环节具有重要价值。

💡 核心观点:百度借力DeepSeek架构与SGLang加速,意图在生成式OCR的长文档解析赛道确立新标杆。

原文链接:Hacker News

C code80.ai · AI 编码 API 聚合 Claude / GPT 多模型统一接入,稳定不限速,按量计费,几行配置接入 Claude Code。 了解一下 ›

抢沙发

评论前必须登录!

立即登录   注册