开源新品:告别 Whisper,这款 macOS 语音输入工具利用多模态大模型实现“懂语境”转写

开发者 Maxwin 推出了一款名为 SpeakMore 的开源 macOS 语音输入工具。与传统 ASR(如 Whisper)方案不同,该工具直接调用多模态大模型(如 Gemini、通义千问)处理音频,实现从识别到优化的“一步到位”。其核心创新在于“三层上下文系统”:通过 API 获取当前 App 信息、结合短期话题与长期用户画像,大幅提升专业术语识别准确率。项目采用纯 Swift 编写,仅 2MB 大小,且针对 macOS 复杂的文本插入机制实现了多重兼容回退逻辑。

原文链接:V2EX 分享发现

抢沙发

评论前必须登录!

立即登录   注册