挑战GPU算力霸权?NumKong发布2000+混合精度内核,释放CPU在AI中的潜力

开发者Ash Vardanian发布了名为NumKong的开源数值计算库,旨在挑战现有的BLAS标准。该库包含超过2000个SIMD内核,代码量达20万行,支持从Float6到Float118的广泛混合精度格式。NumKong针对最新的硬件指令集进行了深度优化,包括Intel AMX、Arm SME、RISC-V向量扩展以及WebAssembly。基准测试显示,在低精度矩阵运算和特定任务(如ColBERT评分、地理计算)中,其性能显著优于OpenBLAS和PyTorch的MKL后端,且二进制体积小于5MB。这一工具的发布表明,通过软件层面的极致优化,通用CPU在AI推理和高性能计算领域仍有巨大潜力待挖掘,有助于降低算力成本并推动边缘侧AI的发展。

原文链接:Hacker News

抢沙发

评论前必须登录!

立即登录   注册