近期有用户在真实场景下测试字节跳动旗下“豆包”的AI视频通话功能时发现,在超市等嘈杂环境中,AI极易被周围人声干扰,无法像Siri那样通过声纹精准锁定主人指令。这一“翻车”经历暴露了当前多模态大模型在物理世界听觉交互上的短板。相比于安静的测试环境,现实世界的背景噪音极为复杂,如何实现精准的声纹识别与声源分离,是AI Agent走向智能化助理必须跨越的技术门槛。
原文链接:Linux.do
近期有用户在真实场景下测试字节跳动旗下“豆包”的AI视频通话功能时发现,在超市等嘈杂环境中,AI极易被周围人声干扰,无法像Siri那样通过声纹精准锁定主人指令。这一“翻车”经历暴露了当前多模态大模型在物理世界听觉交互上的短板。相比于安静的测试环境,现实世界的背景噪音极为复杂,如何实现精准的声纹识别与声源分离,是AI Agent走向智能化助理必须跨越的技术门槛。
原文链接:Linux.do
评论前必须登录!
立即登录 注册