今天下午DeepSeek经历约一小时故障后,服务恢复且性能指标显著优化。基于内部New-api调用DeepSeek-V4-Pro模型的数据分析显示,在Token生成速度(约33.5 tok/s)保持不变的情况下,缓存命中率微升,响应时间降低了40%至50%,首字延迟更是大幅缩减56%至76%。在输入输出量增加的情况下仍实现如此大幅度的延迟优化,分析认为这极大概率是因为DeepSeek后台进行了GPU算力扩容(扩卡),显著提升了系统的并发处理能力和响应效率。
原文链接:Linux.do
今天下午DeepSeek经历约一小时故障后,服务恢复且性能指标显著优化。基于内部New-api调用DeepSeek-V4-Pro模型的数据分析显示,在Token生成速度(约33.5 tok/s)保持不变的情况下,缓存命中率微升,响应时间降低了40%至50%,首字延迟更是大幅缩减56%至76%。在输入输出量增加的情况下仍实现如此大幅度的延迟优化,分析认为这极大概率是因为DeepSeek后台进行了GPU算力扩容(扩卡),显著提升了系统的并发处理能力和响应效率。
原文链接:Linux.do
评论前必须登录!
立即登录 注册