面壁智能发布了 MiniCPM-o 4.5,这是一款总参数量仅 9B 的端侧多模态大模型。其性能直逼 Gemini 2.5 Flash,核心亮点在于支持全双工多模态实时流式交互,打破了输入与输出的阻塞,实现了“边看、边听、边说”的流畅体验,并具备主动提醒和声音克隆能力。配合高性能的 llama.cpp-omni 推理框架,该模型成功将高端的实时全模态对话体验带入 PC 和手机等端侧设备,标志着端侧 AI 交互技术向流式、实时化迈出了关键一步。
原文链接:Linux.do
面壁智能发布了 MiniCPM-o 4.5,这是一款总参数量仅 9B 的端侧多模态大模型。其性能直逼 Gemini 2.5 Flash,核心亮点在于支持全双工多模态实时流式交互,打破了输入与输出的阻塞,实现了“边看、边听、边说”的流畅体验,并具备主动提醒和声音克隆能力。配合高性能的 llama.cpp-omni 推理框架,该模型成功将高端的实时全模态对话体验带入 PC 和手机等端侧设备,标志着端侧 AI 交互技术向流式、实时化迈出了关键一步。
原文链接:Linux.do
评论前必须登录!
立即登录 注册