文章详细记录了作者在 Apple Silicon 芯片上重写 Andrej Karpathy 的 llm.c 项目,并尝试使用 Swift 进行高性能 LLM 训练的完整过程。针对初始 Swift 代码性能远低于 C 语言的问题,作者通过一系列深度优化手段,包括利用 Swift 6.2 新特性 `MutableSpan` 消除写时复制开销、引入 `Relaxed` 数学运算以启用 FMA 指令、手动循环展开、多线程并行,甚至逆向工程使用了“秘密”的 AMX 矩阵协处理器指令,最终通过 Metal GPU 计算着色器释放图形算力。经过层层优化,Swift 实现的性能最终提升了 382 倍,从 2.8 Gflop/s 跃升至 1.1 Tflop/s,不仅追平了 C 语言实现,更深刻揭示了 Apple Silicon 庞大的异构计算潜能。
原文链接:Hacker News

IT资源栈
评论前必须登录!
立即登录 注册