谷歌近日悄然更新了 Gemini 系列的文本转语音(TTS)模型,推出了代号为 `gemini-3.1-flash-tts-preview` 的预览版本。该模型显著提升了语音生成的自然度与生动感,使其听感更接近真人。最关键的技术突破在于,新模型支持使用内嵌音频标记来精细控制语音语气。这意味着开发者可以针对复杂的预设场景,通过代码指令直接调整 AI 的情绪表达,极大地拓展了生成式 AI 在高拟真人机交互、有声读物及游戏配音等领域的应用潜力。
原文链接:Linux.do
谷歌近日悄然更新了 Gemini 系列的文本转语音(TTS)模型,推出了代号为 `gemini-3.1-flash-tts-preview` 的预览版本。该模型显著提升了语音生成的自然度与生动感,使其听感更接近真人。最关键的技术突破在于,新模型支持使用内嵌音频标记来精细控制语音语气。这意味着开发者可以针对复杂的预设场景,通过代码指令直接调整 AI 的情绪表达,极大地拓展了生成式 AI 在高拟真人机交互、有声读物及游戏配音等领域的应用潜力。
原文链接:Linux.do
评论前必须登录!
立即登录 注册