阿里大模型实测翻车:刚列举的工具转头就不认,高分下的“智障”时刻

近日,有科技博主在实测阿里系大模型时遭遇尴尬场景,引发了关于国产模型“高分低能”的讨论。用户在咨询类似 Claude Code 的国产替代工具时,模型先是列举了多款产品,但随后被追问具体信息时,却矢口否认这些工具的存在,出现了严重的逻辑前后矛盾。尽管该模型在跑分测试中表现亮眼,但在实际任务执行中暴露出幻觉严重、联网检索能力差等问题。这一事件不仅折射出当前大模型在事实准确性与上下文记忆方面的短板,也引发了业界对于模型评测标准与实际落地体验之间巨大落差的反思。

原文链接:Linux.do

抢沙发

评论前必须登录!

立即登录   注册