本文对阿里开源的CosyVoice3与IndexTTS2两大文本转语音模型进行了实际对比测试。测试采用《明日方舟》游戏角色的配音进行克隆,并与人声原版进行对比。结果显示,IndexTTS2在语音自然度上表现更佳,接近原声效果;而CosyVoice3则在推理速度和资源消耗方面具有明显优势,生成一段音频仅需约10秒,远快于IndexTTS2的1分半。文章指出,CosyVoice3支持直接自然语言控制和音素法,通过辅助小模型优化合成文本,效果不会逊色太多。对于关注AI语音合成技术的读者,这一对比提供了不同场景下模型选择的实用参考。
原文链接:Linux.do

IT资源栈
评论前必须登录!
立即登录 注册