一项针对多模态大模型OCR能力的对比测试显示,谷歌Gemini在处理极难识别的手写字迹时表现优于字节跳动的豆包。测试素材选用了字迹细小且书写潦草的私人日记文本,尽管对模型识别能力构成巨大挑战,Gemini仍展现出了更强的鲁棒性。测试数据表明,在相同测试条件下,豆包的识别错误率接近Gemini的两倍,揭示了不同模型在细粒度视觉感知和长尾场景理解上的技术差距。
原文链接:Linux.do
一项针对多模态大模型OCR能力的对比测试显示,谷歌Gemini在处理极难识别的手写字迹时表现优于字节跳动的豆包。测试素材选用了字迹细小且书写潦草的私人日记文本,尽管对模型识别能力构成巨大挑战,Gemini仍展现出了更强的鲁棒性。测试数据表明,在相同测试条件下,豆包的识别错误率接近Gemini的两倍,揭示了不同模型在细粒度视觉感知和长尾场景理解上的技术差距。
原文链接:Linux.do
评论前必须登录!
立即登录 注册