阿里通义千问团队正式发布开源文本转语音模型系列Qwen3-TTS。该模型在语音生成质量和速度上均有显著提升,端到端合成延迟低至97ms,实现真正的实时流式生成。核心亮点包括仅需3秒音频即可完成快速克隆,以及支持用自然语言描述来自由设计语音的音色与情感。Qwen3-TTS涵盖中、英、日等10种语言,提供CustomVoice、VoiceDesign及Base三个版本,参数量分别为0.6B和1.7B。基于创新的双轨混合流式架构,该模型已完全开源并支持免费商用,极大降低了AI语音生成的应用门槛。
原文链接:V2EX 分享发现

IT资源栈
评论前必须登录!
立即登录 注册