开发者打造开源播客 AI 翻译工具:集成 ASR 与音色克隆,支持双语穿插播放

为了解决通勤时收听国外播客的语言障碍,一位开发者基于 ASR 和 TTS 技术构建了开源 CLI 工具 podtran。该工具利用 WhisperX 进行语音识别与人声分离,并结合阿里云服务及音色克隆技术生成翻译音频,有效避免了预置音色的机械感。其主要特色在于支持原声与翻译穿插播放(如每 15 秒或切换说话人时插入翻译),旨在辅助用户进行听力训练。项目代码已在 GitHub 开源,支持本地 CPU 运行及视频格式输入。

原文链接:V2EX 分享发现

抢沙发

评论前必须登录!

立即登录   注册