近期虽然AI在数学竞赛夺金的新闻频出,但实测结果却泼了冷水。有用户实测发现,面对一道难度约在CMO至IMO级别的平面几何题,包括Claude 4.7、ChatGPT网页版以及Gemini 3.1 Pro在内的顶尖模型均未能给出正确答案。这一结果不仅挑战了公众对AI现有能力的盲目乐观,也暴露了通用大模型在涉及空间想象力与复杂逻辑推理的特定领域,相较于专用数学求解系统仍有显著差距。
原文链接:Linux.do
近期虽然AI在数学竞赛夺金的新闻频出,但实测结果却泼了冷水。有用户实测发现,面对一道难度约在CMO至IMO级别的平面几何题,包括Claude 4.7、ChatGPT网页版以及Gemini 3.1 Pro在内的顶尖模型均未能给出正确答案。这一结果不仅挑战了公众对AI现有能力的盲目乐观,也暴露了通用大模型在涉及空间想象力与复杂逻辑推理的特定领域,相较于专用数学求解系统仍有显著差距。
原文链接:Linux.do
评论前必须登录!
立即登录 注册