实测纯 API 打造 Voice Agent:抛弃臃肿框架,Gemini 延迟低至 500ms

这篇文章分享了作者从零构建低延迟语音助手的实测经验。不同于以往依赖 LiveKit 等现成框架,本次尝试完全基于纯 API 调用搭建,旨在探索性能极限。测试结果显示,得益于 Google Gemini 2.5 Flash Lite 的出色推理能力,纯文本交互延迟可低至 500ms,即便使用 Flash 3 也能控制在 700ms 左右,而包含联网搜索或图片分析的复杂任务延迟约为 1 至 1.5 秒。项目还特别加入了动态岛 UI 设计,展示了极佳的工程落地效果。

原文链接:V2EX 分享发现

抢沙发

评论前必须登录!

立即登录   注册