英伟达发布cuTile Rust:将内存安全引入GPU内核编程,性能无损媲美cuBLAS

英伟达实验室正式发布了开源项目cuTile Rust,这是一个旨在解决GPU内核编程中安全性问题的实验性工具。长期以来,在Rust中进行GPU开发往往需要依赖unsafe代码或使用C++编写内核,容易引发数据竞争等内存错误。cuTile Rust通过引入“瓦片”高级编程模型,成功将Rust的所有权机制扩展到了GPU端。其核心原理允许开发者在主机端将可变输出张量分割为不相交的片段,每个内核获得独占的可变引用,从而在编译时保证数据竞争自由。技术评测显示,在B200 GPU上,经过优化的安全GEMM内核性能达到了手写底层Tile IR变体的99.7%,约为GPU dense f16峰值的92%,证明了安全性几乎是“零成本”的。该项目不仅支持通用矩阵乘法(GEMM),还与Hugging Face合作展示了基于此技术的Grout推理引擎成果。在Qwen3-4B模型解码测试中,该方案在RTX 5090上实现了171 tokens/s的速度;在Qwen3-32B模型上,B200达到了82 tokens/s,展现了在内存受限推理任务中的强劲性能。目前,cuTile Rust已发布0.2.0版本,支持CUDA 13.3及sm_80+架构,并新增了对FP4等低精度的支持,开发者可通过crates.io直接集成。

事件分析

从技术视角看,cuTile Rust的核心突破在于通过编译器抽象(Tile IR)替代了手动管理线程块和共享内存的传统CUDA编程模式。这种“向上抽象”而非“单纯绑定”的思路,使得Rust的类型系统能够有效跨越主机与设备的边界,这对于构建高可靠性的AI基础设施具有重要意义。产业层面,英伟达积极推动Rust在GPU生态中的应用,暗示着未来AI底层软件栈可能会逐渐从C++向Rust迁移,以追求更高的系统稳定性和开发效率。虽然目前该项目仍处于早期研究阶段,且牺牲了对Warp原语的底层控制权,但其在Blackwell架构(如B200)上展现出的接近理论峰值的性能,证明了安全抽象并不会成为高性能计算的瓶颈。这为后续开发更复杂的、需要极致安全保证的自动驾驶或医疗AI模型提供了全新的技术路径。

💡 核心观点:cuTile Rust打破了高性能与内存安全不可兼得的魔咒,标志着Rust正式具备了在生产级AI高性能计算中替代C++的潜力。

原文链接:Hacker News

C code80.ai · AI 编码 API 聚合 Claude / GPT 多模型统一接入,稳定不限速,按量计费,几行配置接入 Claude Code。 了解一下 ›

抢沙发

评论前必须登录!

立即登录   注册