本研究由MIT、UC Berkeley及NVIDIA等机构联合发布,旨在解决经典K-means聚类算法在现代GPU上的性能瓶颈。现有实现常受限于显存(HBM)的数据搬运瓶颈及硬件级的原子写入冲突。团队提出的Flash-KMeans引入了“FlashAssign”融合计算与在线检索,消除了中间距离矩阵的内存占用;同时发明“排序-逆更新”机制,将高冲突的离散写入转化为高效的段级归约。实测显示,在H200 GPU上,该算法相比业界主流的cuML和FAISS库分别实现了33倍和200倍以上的性能提升,成功将K-means这一传统离线算法转化为支持实时推理的高效在线组件。
原文链接:Hacker News

IT资源栈
评论前必须登录!
立即登录 注册