Vertex AI服务延迟异常:Gemini模型首Token输出超17秒

近日有开发者报告,在使用Google云平台Vertex AI服务调用Gemini-3-pro-preview模型时,发现流式输出出现严重延迟问题。从位于美国硅谷的基础设施发起的API调用显示,首Token延迟(TTFT)持续超过17秒,而正常情况下应低于2秒。开发者通过ping测试确认网络连接正常,排除了网络因素。测试使用Python代码调用API,请求生成200字的故事,响应时间依然超过17秒。这一问题直接影响开发者使用Google Gemini模型的体验,可能导致应用响应缓慢,影响用户体验。目前尚无明确解决方案,开发者可考虑暂时使用其他模型或调整应用策略以缓解此问题。

原文链接:V2EX 分享发现

C code80.ai · AI 编码 API 聚合 Claude / GPT 多模型统一接入,稳定不限速,按量计费,几行配置接入 Claude Code。 了解一下 ›

抢沙发

评论前必须登录!

立即登录   注册