实测小米MiMo-V2.5-Pro模型：推理速度突破1000 tokens/s，领跑端侧大模型性能-IT资源栈

据技术社区Linux.do的用户反馈及实测数据，小米最新发布的“MiMo-V2.5-Pro-UltraSpeed”大模型在推理速度上取得了重大突破。测试结果显示，该模型在生成文本时达到了惊人的1000 tokens/s（每秒生成词元数），这一数据在通过内测审核后得到了验证，证明此前公布的性能指标并未虚标。相比于目前主流云端大模型通常在50至80 tokens/s的生成速率，小米MiMo模型的性能提升了一个数量级，显示出其在推理优化和算力调度上的显著进步。MiMo-V2.5-Pro-UltraSpeed版本的核心竞争力在于“UltraSpeed”（超高速），这意味着该模型可能针对KV Cache优化、Speculative Decoding（投机采样）或Int4/Int8量化技术进行了深度定制，旨在解决大模型在实时交互场景下的延迟痛点。这一技术进展不仅提升了用户体验，更表明小米正在AIoT生态中通过极致的本地化或混合推理能力，为智能助理、自动驾驶或边缘计算设备打造低延迟的底层大脑。

事件分析

此次小米MiMo模型跑出1000 tokens/s的速度，标志着大模型竞赛的焦点已从单纯追求参数规模和逻辑准确性，向极致的推理效率和工程落地能力转移。在技术层面，实现如此高的吞吐量通常意味着采用了激进的非自回归解码算法或特定的硬件加速指令集适配，这往往是以牺牲部分随机性为代价的。从产业影响来看，高推理速度是边缘计算和实时AI应用落地的基础设施门槛。对于小米而言，这一性能指标如果能稳定维持在公开版本中，将极大地增强其手机、汽车及智能家居设备上AI Agent的交互体验，使“秒回”式的对话成为可能，从而在激烈的AI硬件竞争中构建起基于“响应速度”的技术护城河。

💡 核心观点：推理速度的数量级突破意味着AI交互体验的质变，实时性将成为大模型落地下一阶段的核心竞赛点。

原文链接：Linux.do

实测小米MiMo-V2.5-Pro模型：推理速度突破1000 tokens/s，领跑端侧大模型性能

事件分析

相关阅读

抢沙发

评论前必须登录！