蚂蚁集团开源全模态大模型 Ming-flash-omni 2.0,多项指标超越 Gemini 2.5 Pro

蚂蚁集团于2月11日宣布开源发布全模态大模型Ming-flash-omni 2.0。该模型在视觉语言理解、语音可控生成及图像编辑等关键能力上表现强劲,在多项公开基准测试中部分指标超越了谷歌Gemini 2.5 Pro。作为业界首个全场景音频统一生成模型,它具备在同一条音轨中同时生成语音、环境音效与音乐的能力,展示了多模态技术向更深层、更统一架构发展的趋势。

原文链接:Linux.do

抢沙发

评论前必须登录!

立即登录   注册