近日,有月付99元的Kimi 2.6用户在技术社区反馈,模型在回答问题时出现极度延迟,单次生成耗时接近2分钟,严重影响了使用体验。这一现象引发了业界对于大模型推理效率与基础设施负载能力的担忧。尽管Kimi在模型能力和上下文窗口上持续迭代,但过高的响应延迟暴露了其在算力调度或推理优化上的短板。这表明,在“模型智商”竞赛之外,如何保障高并发下的响应速度,已成为大模型商业化落地的关键阻碍。
原文链接:Linux.do
近日,有月付99元的Kimi 2.6用户在技术社区反馈,模型在回答问题时出现极度延迟,单次生成耗时接近2分钟,严重影响了使用体验。这一现象引发了业界对于大模型推理效率与基础设施负载能力的担忧。尽管Kimi在模型能力和上下文窗口上持续迭代,但过高的响应延迟暴露了其在算力调度或推理优化上的短板。这表明,在“模型智商”竞赛之外,如何保障高并发下的响应速度,已成为大模型商业化落地的关键阻碍。
原文链接:Linux.do
评论前必须登录!
立即登录 注册