开发者 Fikri Karim 在 GitHub 上开源了 Parlor 项目,展示了在 M3 Pro 芯片上运行完全本地化的实时多模态 AI 能力。该项目利用 Google 最新的 Gemma 4 E2B 模型处理视觉和语音输入,结合 Kokoro TTS 生成语音,实现了全程端侧的“视听对话”。技术上,通过 LiteRT-LM 优化,仅需约 3GB 内存即可维持约 3 秒的端到端响应延迟,打破了以往必须依赖 RTX 5090 等高端显卡的限制。作者旨在通过这种架构为语言学习者提供免费、无服务器成本的 AI 陪练,这标志着消费级硬件已具备运行复杂实时 AI 代理的能力。
原文链接:Hacker News

IT资源栈
评论前必须登录!
立即登录 注册