近日有开发者报告,在使用Google云平台Vertex AI服务调用Gemini-3-pro-preview模型时,发现流式输出出现严重延迟问题。从位于美国硅谷的基础设施发起的API调用显示,首Token延迟(TTFT)持续超过17秒,而正常情况下应低于2秒。开发者通过ping测试确认网络连接正常,排除了网络因素。测试使用Python代码调用API,请求生成200字的故事,响应时间依然超过17秒。这一问题直接影响开发者使用Google Gemini模型的体验,可能导致应用响应缓慢,影响用户体验。目前尚无明确解决方案,开发者可考虑暂时使用其他模型或调整应用策略以缓解此问题。
原文链接:V2EX 分享发现

评论前必须登录!
立即登录 注册