算力革命?Taalas芯片实现每秒1.7万tokens推理,揭秘LLM“打印”技术

初创公司Taalas发布了一款定制ASIC芯片,成功在Llama 3.1 8B模型上实现了每秒17000个token的惊人推理速度,性能相当于一秒钟生成约30页A4纸内容。该公司宣称其核心技术在于将大模型权重直接“打印”或硬化到芯片架构中。这种极致的硬件定制化大幅提升了推理效率,为解决AI落地的高算力成本与延迟难题提供了全新的技术路径。

原文链接:Hacker News

C code80.ai · AI 编码 API 聚合 Claude / GPT 多模型统一接入,稳定不限速,按量计费,几行配置接入 Claude Code。 了解一下 ›

抢沙发

评论前必须登录!

立即登录   注册