这篇文章揭示了高性能并发编程中一个反直觉的硬件陷阱。作者在开发基于 Rust 的 Tensor Cache 时发现,在 Apple M4 芯片上,遵循常规直觉用于读多写少场景的读写锁(RwLock),其性能反而比普通的互斥锁(Mutex)慢了约 5 倍。根本原因在于现代 CPU 的“缓存行乒乓”效应:由于读操作极快,线程间为争夺读写锁内部计数器的缓存行所有权而产生的总线通信开销,远远超过了实际查找数据的耗时。这一发现表明,在纳秒级的极短临界区中,复杂的并发原语往往会因硬件层面的争用而适得其反,简单粗暴的互斥锁或数据分片才是更优解。
原文链接:Hacker News





评论前必须登录!
立即登录 注册