超市实测豆包遭遇“噪音危机”:为何AI大模型还学不会只听主人的话?

近期有用户在真实场景下测试字节跳动旗下“豆包”的AI视频通话功能时发现,在超市等嘈杂环境中,AI极易被周围人声干扰,无法像Siri那样通过声纹精准锁定主人指令。这一“翻车”经历暴露了当前多模态大模型在物理世界听觉交互上的短板。相比于安静的测试环境,现实世界的背景噪音极为复杂,如何实现精准的声纹识别与声源分离,是AI Agent走向智能化助理必须跨越的技术门槛。

原文链接:Linux.do

抢沙发

评论前必须登录!

立即登录   注册