Mercury 2发布:采用扩散技术,推理速度突破每秒1000 tokens

Inception Labs 发布了号称全球最快的推理大语言模型 Mercury 2。不同于传统 Transformer 的自回归逐字解码,该模型创新性地利用扩散技术进行并行文本精炼,实现了生成模式的根本性改变。在 NVIDIA Blackwell GPU 上,其生成速度超过每秒 1000 tokens,且在高并发下保持极低延迟。这一突破大幅降低了推理成本,使得在实时语音交互、代码编写及复杂 Agent 循环等延迟敏感场景中应用高级推理能力成为可能,目前已开启 API 早期访问。

原文链接:Hacker News

C code80.ai · AI 编码 API 聚合 Claude / GPT 多模型统一接入,稳定不限速,按量计费,几行配置接入 Claude Code。 了解一下 ›

抢沙发

评论前必须登录!

立即登录   注册