AdderBoard 挑战赛旨在寻找能够对两个10位数进行加法运算且准确率超过99%的最小Transformer模型。该项目源于对 Claude Code 和 Codex 代码生成能力的对比,随后引爆社区热情。目前的排行榜显示,通过手工设计权重(Analytic Proof),模型参数量可压缩至惊人的36个,实现了100%准确率;而通过SGD等算法训练的最小模型也达到了311个参数。这一挑战不仅探索了Transformer在算术逻辑上的底层机制,还验证了包括ALiBi位置编码、低秩分解和“Grokking”现象在内的多项技术创新。
原文链接:Hacker News



评论前必须登录!
立即登录 注册