Inception Labs 发布了号称全球最快的推理大语言模型 Mercury 2。不同于传统 Transformer 的自回归逐字解码,该模型创新性地利用扩散技术进行并行文本精炼,实现了生成模式的根本性改变。在 NVIDIA Blackwell GPU 上,其生成速度超过每秒 1000 tokens,且在高并发下保持极低延迟。这一突破大幅降低了推理成本,使得在实时语音交互、代码编写及复杂 Agent 循环等延迟敏感场景中应用高级推理能力成为可能,目前已开启 API 早期访问。
原文链接:Hacker News









评论前必须登录!
立即登录 注册