打破黑盒:无需训练复制特定层,24B模型逻辑推理能力暴涨245%

Hacker News热门项目显示,通过复制Transformer中的特定“推理电路”层,可在无需任何训练的情况下显著提升模型智商。在Devstral-24B模型上复制第12-14层,其逻辑推理得分从0.22跃升至0.76。该工具利用AMD消费级显卡即可运行,证实了模型内部存在独立的认知单元,只需通过简单的计算重复即可挖掘其深层潜力。

原文链接:Hacker News

抢沙发

评论前必须登录!

立即登录   注册