Google I/O 2026 曝光:Gemini Omni 支持全模态视频编辑,3.5 Flash 速度狂飙至 1500 tok/s

据科技社区 Linux.do 汇总的消息,Google 在即将到来的 I/O 2026 大会前泄露了其 AI 战略的核心布局。首先,Gemini Omni 模型被定义为“全模态”解决方案,不仅支持全类型输入,其突破性在于输出端,特别是实现了对视频内容的编辑与生成能力,这标志着多模态 AI 从理解层面向创作与修改层面的重大跨越。其次,Gemini 3.5 Flash 模型着重优化了推理性能,据称其输出速度高达 1500 tokens/s,这一速度远超当前主流模型,基本实现了实时流式生成,能够极大地消除用户在复杂交互中的感知延迟。此外,Google 还计划推出代号为 Spark 的新模型,被视为 Google 版的“Claude”,旨在优化特定的对话或推理场景。底层生态方面,Google 搜索将迎来架构级升级,正式支持多模态输入,不再局限于传统的文本关键字检索。这些更新预示着 Google 正在通过极致的性能提升和全模态能力,构建下一代 AI 操作系统的雏形。

事件分析

从技术指标来看,Gemini 3.5 Flash 宣称的 1500 tokens/s 输出速度如果属实,将是对现有大模型推理引擎的一次颠覆性突破。当前主流模型普遍受限于推理延迟,难以支撑真正实时的语音对话或高频交互,如此高的吞吐量意味着 AI 可以在毫秒级完成复杂任务的响应,这对 Agent(智能体)的实际落地至关重要。Gemini Omni 强调的视频编辑能力,则揭示了多模态竞争的下半场焦点——从图文生成转向长视频与复杂时间序列媒体的生成与控制。Gemini Spark 的出现暗示 Google 正在构建分层的产品矩阵,试图用特定模型对标 Claude 等竞品的优势领域。结合 Google 搜索的多模态化改造,可以看出 Google 正试图将其在大模型领域的进展反哺到其核心广告与搜索业务中,以应对来自 OpenAI 等新兴势力的搜索挑战。

💡 核心观点:谷歌试图通过极致的推理速度与全模态生成能力,重新定义AI交互的实时性标准,将大模型竞争从单纯的智能比拼推向了即时生产力工具的维度。

原文链接:Linux.do

相关阅读

  • 暂无文章

抢沙发

评论前必须登录!

立即登录   注册