新基准“First Proof”上线:用10道加密数学难题检验LLM的真实推理能力

一个名为“First Proof”的新项目提出了一项独特的测试,旨在验证大语言模型(LLM)是否具备真实的数学推理能力。该项目发布了10道源自真实研究过程的数学难题,虽然答案已被作者掌握,但被暂时加密,以确保这些题目未曾在公开数据集中出现,从而排除了模型仅靠“记忆”得分的可能性。然而,Hacker News上的评论指出了潜在的漏洞:AI实验室(如OpenAI或Anthropic)理论上可能聘请人类数学家解题并谎称是AI的成果,目前的方案缺乏有效的防作弊验证机制。此外,即将到来的2月13日截止日期也被认为过于紧迫,这对生成速度快的LLM有利,而对需要时间严谨书写证明的人类数学家构成了挑战。

原文链接:Hacker News

抢沙发

评论前必须登录!

立即登录   注册