GLM-OCR开源登顶基准:0.9B参数实现SOTA性能,专攻复杂文档理解

GLM-OCR 是一款全新的开源多模态OCR模型,专为应对复杂文档理解场景而生。该模型基于 GLM-V 架构,创新性地引入了多令牌预测(MTP)损失函数和强化学习技术,显著提升了训练效率与识别精度。在权威的 OmniDocBench V1.5 测试中,GLM-OCR 以 94.62 的分数霸榜第一,超越了 GPT-4o 等现有模型。其核心优势在于“小而精”,仅凭 0.9B 的参数量实现了高精度与高效率的平衡,特别擅长处理复杂表格、公式及印章。目前该模型已全面开源,支持 vLLM、Ollama 及 Apple Silicon 本地部署,为企业级应用提供了低成本、高效率的解决方案。

原文链接:Hacker News

抢沙发

评论前必须登录!

立即登录   注册