Google I/O 2026 曝光：Gemini Omni 支持全模态视频编辑，3.5 Flash 速度狂飙至 1500 tok/s-IT资源栈

据科技社区 Linux.do 汇总的消息，Google 在即将到来的 I/O 2026 大会前泄露了其 AI 战略的核心布局。首先，Gemini Omni 模型被定义为“全模态”解决方案，不仅支持全类型输入，其突破性在于输出端，特别是实现了对视频内容的编辑与生成能力，这标志着多模态 AI 从理解层面向创作与修改层面的重大跨越。其次，Gemini 3.5 Flash 模型着重优化了推理性能，据称其输出速度高达 1500 tokens/s，这一速度远超当前主流模型，基本实现了实时流式生成，能够极大地消除用户在复杂交互中的感知延迟。此外，Google 还计划推出代号为 Spark 的新模型，被视为 Google 版的“Claude”，旨在优化特定的对话或推理场景。底层生态方面，Google 搜索将迎来架构级升级，正式支持多模态输入，不再局限于传统的文本关键字检索。这些更新预示着 Google 正在通过极致的性能提升和全模态能力，构建下一代 AI 操作系统的雏形。

事件分析

从技术指标来看，Gemini 3.5 Flash 宣称的 1500 tokens/s 输出速度如果属实，将是对现有大模型推理引擎的一次颠覆性突破。当前主流模型普遍受限于推理延迟，难以支撑真正实时的语音对话或高频交互，如此高的吞吐量意味着 AI 可以在毫秒级完成复杂任务的响应，这对 Agent（智能体）的实际落地至关重要。Gemini Omni 强调的视频编辑能力，则揭示了多模态竞争的下半场焦点——从图文生成转向长视频与复杂时间序列媒体的生成与控制。Gemini Spark 的出现暗示 Google 正在构建分层的产品矩阵，试图用特定模型对标 Claude 等竞品的优势领域。结合 Google 搜索的多模态化改造，可以看出 Google 正试图将其在大模型领域的进展反哺到其核心广告与搜索业务中，以应对来自 OpenAI 等新兴势力的搜索挑战。

💡 核心观点：谷歌试图通过极致的推理速度与全模态生成能力，重新定义AI交互的实时性标准，将大模型竞争从单纯的智能比拼推向了即时生产力工具的维度。

原文链接：Linux.do

Google I/O 2026 曝光：Gemini Omni 支持全模态视频编辑，3.5 Flash 速度狂飙至 1500 tok/s

事件分析

相关阅读

抢沙发

评论前必须登录！