GitHub上名为“Espresso”的开源项目发布,旨在通过逆向工程苹果的私有API,实现在Apple Silicon的神经引擎(ANE)上直接运行和训练Transformer模型。该项目绕过了苹果标准的CoreML框架,直接调用_ANEClient和_ANEInMemoryModel等私有接口,消除了传统推理流程中的编译开销和数据封送处理。测试数据显示,在M3 Max设备上,Espresso的解码速度达到1.08毫秒/Token,比CoreML的5.09毫秒/Token快了4.76倍,同时也显著优于基于Metal的llama.cpp。Espresso完全使用Swift 6.2编写,支持零拷贝I/O、内核融合以及完整的训练循环(包括反向传播和梯度累积),能够将6层Transformer模型的计算量缩减为仅2次硬件调度。尽管该方案依赖私有API无法上架App Store,但它为macOS上的本地AI开发和模型研究提供了极高的性能潜力。
事件分析
💡 核心观点:绕过CoreML直通神经引擎,Espresso打破了苹果端侧AI的性能枷锁,重新定义了本地大模型的推理效率。
原文链接:Hacker News

评论前必须登录!
立即登录 注册