智谱发布GLM-OCR:0.9B参数实现SOTA,专攻复杂文档多模态理解

智谱AI发布开源多模态OCR模型GLM-OCR,基于GLM-V架构构建,专为复杂文档理解设计。该模型引入多Token预测损失函数及强化学习,集成了CogViT视觉编码器与0.9B参数的高效解码器。在OmniDocBench V1.5评测中,GLM-OCR以94.62分位居榜首,并在公式与表格识别等基准测试中达到顶尖水平。其优势在于能稳健处理代码、印章等复杂真实场景,且支持vLLM等主流推理框架,显著降低推理成本,成为边缘侧部署的理想选择。

原文链接:Linux.do

抢沙发

评论前必须登录!

立即登录   注册