谷歌Gemini发布TTS新模型:支持音频标记控制语气,语音自然度大幅提升

谷歌近日悄然更新了 Gemini 系列的文本转语音(TTS)模型,推出了代号为 `gemini-3.1-flash-tts-preview` 的预览版本。该模型显著提升了语音生成的自然度与生动感,使其听感更接近真人。最关键的技术突破在于,新模型支持使用内嵌音频标记来精细控制语音语气。这意味着开发者可以针对复杂的预设场景,通过代码指令直接调整 AI 的情绪表达,极大地拓展了生成式 AI 在高拟真人机交互、有声读物及游戏配音等领域的应用潜力。

原文链接:Linux.do

抢沙发

评论前必须登录!

立即登录   注册