社区讨论显示,OpenAI最新的ChatGPT 5.4 Thinking模型在一道经典的“运煤逻辑题”面前再次栽跟头。题目要求区分“总量的4/7”与“4/7吨”的数量关系,正确答案应为“无法判断”,但ChatGPT未能识破其中的单位陷阱。相比之下,谷歌Gemini 3.1 Pro在离线状态下却给出了正确解答。这一对比不仅暴露了顶尖AI在基础逻辑推理上的不稳定性,也引发了业界对于大模型真实“智商”与常识理解能力的质疑。
原文链接:Linux.do
社区讨论显示,OpenAI最新的ChatGPT 5.4 Thinking模型在一道经典的“运煤逻辑题”面前再次栽跟头。题目要求区分“总量的4/7”与“4/7吨”的数量关系,正确答案应为“无法判断”,但ChatGPT未能识破其中的单位陷阱。相比之下,谷歌Gemini 3.1 Pro在离线状态下却给出了正确解答。这一对比不仅暴露了顶尖AI在基础逻辑推理上的不稳定性,也引发了业界对于大模型真实“智商”与常识理解能力的质疑。
原文链接:Linux.do
评论前必须登录!
立即登录 注册