有科技爱好者反馈,在订阅 Ollama Pro 服务并尝试运行国产开源大模型(如 GLM-4 系列)时,遭遇了严重的性能瓶颈。尽管用户试图利用时差,“错峰”在夜间使用以避开美国的高峰期,但实际体验中推理速率依然极低,生成少量 Token 往往耗时长达一两分钟。此外,用户还发现额度的消耗逻辑不透明,高峰期的扣费速度显著加快。这一案例折射出当前 AI 推理服务在应对全球高并发需求时,负载均衡与资源调度方面仍存在明显短板。
原文链接:Linux.do
有科技爱好者反馈,在订阅 Ollama Pro 服务并尝试运行国产开源大模型(如 GLM-4 系列)时,遭遇了严重的性能瓶颈。尽管用户试图利用时差,“错峰”在夜间使用以避开美国的高峰期,但实际体验中推理速率依然极低,生成少量 Token 往往耗时长达一两分钟。此外,用户还发现额度的消耗逻辑不透明,高峰期的扣费速度显著加快。这一案例折射出当前 AI 推理服务在应对全球高并发需求时,负载均衡与资源调度方面仍存在明显短板。
原文链接:Linux.do
评论前必须登录!
立即登录 注册