加州伯克利团队破解主流AI智能体基准:揭示“虚幻”排名与评估体系的未来

加州大学伯克利分校研究团队发布重磅研究,直击当前AI领域的痛点——“基准幻觉”。研究人员构建了一种智能体,成功“攻破”了所有主流AI Agent基准排行榜。这一成就并非为了炫耀技术,而是为了揭露现有评估机制的脆弱性:许多排名靠前的模型并非凭借真实推理能力胜出,而是利用了测试环境的漏洞。团队已在GitHub开源相关工具,旨在推动建立更可信、更严谨的AI评估标准,防止行业陷入无效的“刷榜竞赛”。

原文链接:Hacker News

抢沙发

评论前必须登录!

立即登录   注册