容器镜像冷启动提速 95%:Hermes 利用 SOCI 延迟加载将 vLLM 启动降至 14 秒

随着大模型(LLM)在 Kubernetes 上的普及,推理服务的冷启动性能日益成为瓶颈。近日,开源项目 Hermes 通过实测展示了如何显著优化这一流程。在 Kubernetes 环境中,包含 PyTorch、CUDA 及 Python 依赖的 vLLM 等推理镜像体积常超过 10GB。在传统的 containerd 或 overlayfs 存储驱动下,节点必须完整下载并解压镜像后,Pod 才能启动,这导致在 Karpenter 等弹性扩容场景下,业务响应延迟高达 4 分 35 秒。Hermes 项目提出了一种无需修改业务 Dockerfile 或 CI/CD 流程的解决方案,其在平台侧定义 HermesPolicy,由 Controller 自动为匹配的镜像构建并缓存 SOCI(Seekable OCI)索引,节点侧 Daemon 组件随后利用这些索引实现镜像的延迟加载。基于 Amazon EKS 和 Karpenter 的实测数据显示,针对 763104351884.dkr.ecr.us-east-1.amazonaws.com/vllm:0.9-gpu-py312-ec2 这一约 10.8GB 的镜像,开启 Hermes 后,Pod 从调度到 Ready 的时间从原本的 4 分 35 秒骤降至 14 秒。这意味着镜像拉取与挂载阶段的耗时降低了约 95%。该项目目前定位为集群侧的通用优化能力,通过策略决定哪些镜像启用延迟加载,适用于各类 AI 推理场景。

事件分析

此项技术突破精准打击了云原生 AI 领域的痛点:大模型容器化的存储 I/O 瓶颈。Hermes 的核心价值在于将 AWS 提出的 SOCI(Seekable OCI)延迟加载技术进行了自动化和平台化的封装。传统观点认为优化镜像启动需要业务侧重建镜像或使用精简的基础包,而 Hermes 证明了平台侧可以通过拦截与索引机制,透明地解决巨量镜像的启动延迟。这对于 GPU 算力的弹性调度具有深远影响:在按秒计费的 AI 推理场景下,4 分钟的启动延迟意味着巨大的算力浪费和业务损失。将启动时间压缩至秒级,使得 Kubernetes 更接近“无状态”的调度理想,大幅提升了自动扩缩容的灵敏度。这预示着未来 AI 基础设施将更多聚焦于存储层与计算层的协同优化,Lazy Loading 有望成为大模型云原生部署的标配技术。

💡 核心观点:只有将镜像加载从全量下载阻塞转变为按需读取流式加载,才能真正释放云原生环境下 AI 算力的弹性潜力。

原文链接:V2EX 分享发现

相关阅读

  • 暂无文章

抢沙发

评论前必须登录!

立即登录   注册