近日,一张包含中文谐音梗的趣味图片在科技圈走红,成为测试各大AI模型多模态识图与中文语义理解能力的“考题”。测试涵盖了GPT、豆包、Gemini、Qwen、MiniMax及GLM等主流模型。结果显示,各模型表现参差不齐:豆包、MiniMax及Gemini成功破解谜题,展现了优秀的图像与语境关联能力;而部分模型则出现理解偏差或过度思考。这一测试不仅具有娱乐性,更深层揭示了当前大模型在处理复杂视觉语义和文化语境时的技术瓶颈。
原文链接:Linux.do
近日,一张包含中文谐音梗的趣味图片在科技圈走红,成为测试各大AI模型多模态识图与中文语义理解能力的“考题”。测试涵盖了GPT、豆包、Gemini、Qwen、MiniMax及GLM等主流模型。结果显示,各模型表现参差不齐:豆包、MiniMax及Gemini成功破解谜题,展现了优秀的图像与语境关联能力;而部分模型则出现理解偏差或过度思考。这一测试不仅具有娱乐性,更深层揭示了当前大模型在处理复杂视觉语义和文化语境时的技术瓶颈。
原文链接:Linux.do
评论前必须登录!
立即登录 注册