本文深入分析了Nvidia与Mediatek合作的GB10芯片内存子系统,从CPU角度探讨其架构设计。GB10配备48个Blackwell SM GPU核心和20个CPU核心(10个X925 + 10个A725),内存子系统包括L1、L2、L3缓存和系统级缓存(SLC)。测试显示,GB10的DRAM延迟在LPDDR5X下表现优异(113 ns),但L3延迟较高。相比AMD的Strix Halo,GB10在带宽和延迟控制上有优势,但集群配置存在优化空间。文章还探讨了GPU对CPU延迟的影响,揭示了AI芯片设计中性能与密度的权衡。
原文链接:Hacker News

IT资源栈
评论前必须登录!
立即登录 注册