尽管多模态大模型已具备强大的视觉理解能力,但在实际落地中仍存在明显的“输入断层”。近日有开发者指出,目前流行的 AI 客户端如 Cherry-Studio 在集成 MCP(模型上下文协议)搜索功能时,现有的搜索引擎(如 Searxng 和 Tavily)仅能返回文本信息,无法直接向模型喂入网络图片或视频数据。这一技术瓶颈限制了多模态模型从实时网络环境中获取视觉上下文的能力,使得 AI 智能体在面对需要“看图说话”的场景时束手无策。这不仅是单一软件的缺陷,更折射出当前 AI 生态中多模态数据管道建设滞后于模型进化的现状。
原文链接:Linux.do

IT资源栈
评论前必须登录!
立即登录 注册