据社区最新反馈及第三方平台监测数据显示,DeepSeek 在近期对其网页端及 App 的“专家模式”服务进行了显著的性能优化,推理响应速度实现了大幅提升。多名用户在进行反向代理测试及实际使用中观察到,模型生成速度已稳定达到每秒 100 tokens(t/s)的水平,这一数值显著优于此前平均水平,处于目前主流大模型推理速度的第一梯队。同时,通过 OpenRouter 等聚合平台的实时数据看板可以确认,DeepSeek 位于新加坡、印度等多个数据中心的吞吐量均呈现持续且稳定的上涨态势。这一现象表明,此次提速并非局部的临时波动,而是源于后端基础设施的实质性扩容或算法层面的深度优化。更快的推理速度不仅极大地提升了用户在长文本生成、代码编写及逻辑推理等复杂场景下的交互体验,也意味着 DeepSeek 在处理高并发请求时的算力调度能力得到了增强,这对于降低大规模模型的使用门槛和推动商业化落地具有重要积极意义。
事件分析
此次推理速度的显著提升并非简单的负载调整,而是深层基础设施演进的强烈信号。首先,100 t/s 的稳定吞吐量表明 DeepSeek 可能已优化了其 MoE(混合专家)架构的调度机制,大幅减少了采样延迟。其次,OpenRouter 数据显示新加坡及印度节点的吞吐量激增,折射出 DeepSeek 正在加速全球推理节点的布局与扩容,这旨在应对此前因高并发访问可能出现的限流问题。从技术产业角度看,推理速度是限制大模型在实时交互场景(如 AI Agent、实时代码补全)落地的核心瓶颈。此次基建升级不仅巩固了 DeepSeek 在“性能/成本比”上的优势,也预示着其可能即将支持更长上下文或更复杂的思维链调用,推动其生态向更低延迟、更高并发的工业级应用迈进。
💡 核心观点:DeepSeek 推理实测突破 100 t/s 标志着其基建层完成关键升级,AI 模型正从“能用”向“低延迟、高并发”的实时生产力工具加速进化。
原文链接:Linux.do

IT资源栈
评论前必须登录!
立即登录 注册