Hacker News热门项目显示,通过复制Transformer中的特定“推理电路”层,可在无需任何训练的情况下显著提升模型智商。在Devstral-24B模型上复制第12-14层,其逻辑推理得分从0.22跃升至0.76。该工具利用AMD消费级显卡即可运行,证实了模型内部存在独立的认知单元,只需通过简单的计算重复即可挖掘其深层潜力。
原文链接:Hacker News
Hacker News热门项目显示,通过复制Transformer中的特定“推理电路”层,可在无需任何训练的情况下显著提升模型智商。在Devstral-24B模型上复制第12-14层,其逻辑推理得分从0.22跃升至0.76。该工具利用AMD消费级显卡即可运行,证实了模型内部存在独立的认知单元,只需通过简单的计算重复即可挖掘其深层潜力。
原文链接:Hacker News
评论前必须登录!
立即登录 注册