NVIDIA开源GPU内核模块项目近日曝出一个关键稳定性问题。用户报告显示,在搭载B200显卡且使用开源驱动(OpenRM 570.133.20)的系统中,连续运行约66天后,nvidia-smi监控指令将无限期卡死,日志伴有NVLink错误。该问题仅存在于开源驱动,专有驱动不受影响。目前NVIDIA已介入调查,这对依赖长期稳定运行的AI数据中心提出了预警。
原文链接:Hacker News
NVIDIA开源GPU内核模块项目近日曝出一个关键稳定性问题。用户报告显示,在搭载B200显卡且使用开源驱动(OpenRM 570.133.20)的系统中,连续运行约66天后,nvidia-smi监控指令将无限期卡死,日志伴有NVLink错误。该问题仅存在于开源驱动,专有驱动不受影响。目前NVIDIA已介入调查,这对依赖长期稳定运行的AI数据中心提出了预警。
原文链接:Hacker News
评论前必须登录!
立即登录 注册