一位开发者为了验证Claude Opus是否存在“降智”现象,进行了一场高强度的极限测试。结果显示,面对一道极具挑战性的逻辑难题,Claude Opus表现尚可,仍在认真思考,而Gemini和Claude 5.4却给出了严重的“伪证”或幻觉结论,唯有Grok Heavy成功给出正确答案。此次测试不仅耗尽了测试者的Claude Pro 5小时额度,也直观暴露了当前顶尖大模型在复杂逻辑推理与真实性方面的显著差距。
原文链接:Linux.do
一位开发者为了验证Claude Opus是否存在“降智”现象,进行了一场高强度的极限测试。结果显示,面对一道极具挑战性的逻辑难题,Claude Opus表现尚可,仍在认真思考,而Gemini和Claude 5.4却给出了严重的“伪证”或幻觉结论,唯有Grok Heavy成功给出正确答案。此次测试不仅耗尽了测试者的Claude Pro 5小时额度,也直观暴露了当前顶尖大模型在复杂逻辑推理与真实性方面的显著差距。
原文链接:Linux.do
评论前必须登录!
立即登录 注册