Linux.do论坛用户对腾讯旗下的音乐生成大模型“Song Generation”进行了深度实测,结果显示该模型在情感表达和生成质量上存在显著不足,与其宣称的“第一”名头存在较大落差。该模型目前在Hugging Face Space上线,允许用户通过输入歌词、选择风格、添加描述或参考音频来生成完整歌曲。实测过程揭示了该模型在实际应用中的诸多局限性:首先,模型对输入格式有严苛的限制,用户必须在歌词段落开头使用`[verse]`、`[chorus]`、`[bridge]`等特定的结构标签,否则无法生成歌曲,这大大增加了用户的交互门槛。测试者精心设计了包含中英文歌词及特定主题的歌曲《日常引力》,但生成结果令人大失所望。评测指出,尽管伴奏旋律尚可,但整体听感单调乏味。最核心的问题在于人声合成,生成的人声被形容为“毫无感情的念白读词机器”,缺乏旋律起伏,尤其在英文段落中语调平直、变化单一。此外,模型对音乐结构的理解能力较弱,错误地将高潮段落处理为普通桥段,且存在严重的“烂尾”问题,歌曲在未结束时突然截断。此次评测表明,尽管可能拥有庞大的参数基础,但腾讯Song Generation在情感细腻度、长序列生成稳定性及自然语言交互的灵活性上,仍面临严峻的技术挑战。
事件分析
本次评测触及了生成式AI在音频领域的核心瓶颈:语义理解与情感呈现的割裂。腾讯Song Generation依赖强制的结构标签(如`[chorus]`)来维持歌曲框架,暴露了当前模型在理解自然语言与音乐结构映射时的能力短板,这种“硬编码”式的约束虽然保证了格式正确,却极大限制了创作的自由度。评测中反映的“人声念白化”和“高潮平淡化”,说明模型尚未掌握音乐中至关重要的“张力”与“情感曲线”,无法像人类歌手那样通过语调变化传递情绪。尤其是歌曲生成过程中的随机截断,直接指向了长序列音频生成在持续性和连贯性上的技术难题。对于行业而言,这意味着音乐大模型的竞争已从单纯的“宣发称霸”转向更务实的“听感优化”阶段,唯有解决情感表达和生成稳定性的技术痛点,才能真正落地应用。
💡 核心观点:喧嚣的“第一”营销掩盖不了技术的硬伤,AI音乐生成若无法突破“机械念白”的情感桎梏,终将沦为没有灵魂的数字噪音。
原文链接:Linux.do

IT资源栈
评论前必须登录!
立即登录 注册