针对当前大语言模型(LLM)在代码生成基准中可能利用海量预训练数据进行“作弊”而非真实推理的问题,研究人员推出了EsoLang-Bench基准测试。该测试选取了Brainfuck、Whitespace等五种训练数据极度稀缺的深奥编程语言,其数据量比Python少5,000到100,000倍。测试结果令人震惊:即便是表现最好的前沿模型,整体准确率也仅为3.8%,而在同等难度的Python任务中这一数字约为90%。在“简单”级别以上的题目中,所有模型得分均为0%,且Agent架构的自我反思机制毫无帮助。这揭示了LLM在主流语言上的高分很大程度上源于数据记忆,而非真正的编程逻辑推理能力。
原文链接:Hacker News

IT资源栈
评论前必须登录!
立即登录 注册