针对当前大模型推理成本高昂且速度受限的痛点,芯片初创公司Taalas提出将大模型(LLM)完整“刻”进硅片的激进方案。该技术通过将模型权值直接固化在专用芯片中,绕过通用GPU的存储墙,有望实现计算效率的指数级提升。业界分析认为,若此技术应用于Sora类高算力需求的视频生成模型,将彻底解决渲染延迟问题,实现高质量视频的实时生成,标志着AI硬件从“通用计算”向“算法固化”的专用化方向加速演进。
原文链接:Linux.do
针对当前大模型推理成本高昂且速度受限的痛点,芯片初创公司Taalas提出将大模型(LLM)完整“刻”进硅片的激进方案。该技术通过将模型权值直接固化在专用芯片中,绕过通用GPU的存储墙,有望实现计算效率的指数级提升。业界分析认为,若此技术应用于Sora类高算力需求的视频生成模型,将彻底解决渲染延迟问题,实现高质量视频的实时生成,标志着AI硬件从“通用计算”向“算法固化”的专用化方向加速演进。
原文链接:Linux.do
评论前必须登录!
立即登录 注册