一项针对中国象棋场景的OCR对比测试显示,多模态大模型在特定领域的表现参差不齐。测试要求模型识别棋盘截图并转换为标准UCCI/FEN格式。结果显示,Google Gemini是唯一完全正确的模型;GPT系列出现了部分颜色识别错误;而近期备受瞩目的DeepSeek模型表现极差,在棋子位置、颜色及意图理解上全面失误。这一实测结果为市场泼了一盆冷水,表明尽管DeepSeek在代码与逻辑推理上表现出色,但在细粒度的多模态视觉理解方面,与顶尖水平仍存在明显差距。
原文链接:Linux.do
一项针对中国象棋场景的OCR对比测试显示,多模态大模型在特定领域的表现参差不齐。测试要求模型识别棋盘截图并转换为标准UCCI/FEN格式。结果显示,Google Gemini是唯一完全正确的模型;GPT系列出现了部分颜色识别错误;而近期备受瞩目的DeepSeek模型表现极差,在棋子位置、颜色及意图理解上全面失误。这一实测结果为市场泼了一盆冷水,表明尽管DeepSeek在代码与逻辑推理上表现出色,但在细粒度的多模态视觉理解方面,与顶尖水平仍存在明显差距。
原文链接:Linux.do
评论前必须登录!
立即登录 注册