Contents

KCD Hangzhou 2025

周末作为志愿者参加了 KCD Hangzhou 的活动,活动地址在浙大紫荆港边上,离公司不远。

谈谈几点收获

这次志愿者工作被安排在签到台,最直观的好处就是可以跟大佬面对面,在这个过程中结识了 Kong 上海的负责人黄总、蚂蚁 Kata infra 团队的大佬们、通义实验室百炼平台负责人于总、蚂蚁 Nydus 容器团队的工程师。

在深入的沟通中,也了解到了在 AI 热的大背景下,目前国内大厂顶尖的 infra 团队在虚拟化层、镜像交付层、MaaS 调度层正在推进哪些工作以及遇到了哪些挑战。

关于 MaaS

百炼平台的 MaaS 无疑是顶级的,托管了众多不同类型、不同规格的模型。百炼在底层资源层面采用了 K8s 来进行统一纳管,在上层则自研了诸如 DashServing、DashMesh、DashScaler 等组件。在这个技术框架下,他们发现了一个问题,目前 K8s 只提供了基于 Pod 生命周期的管理,没有提供基于 Model 的生命周期管理。这样会导致在模型切换时,如果直接使用 K8s 的原语,那么只能对 Pod 进行重建,这样切换模型的开销是巨大的,特别是 Pod 可能会被调度到其他节点,另外,模型的装载与卸载相比在 Serving 服务内做也会有一定的开销。因此,在分享中提出了灵魂拷问,「在 AI 推理的背景下,是否一定需要 K8s?」

会后也请教了在 MaaS 层如何做到高效的模型切换,特别是在加载 DeepSeek-V3 这类超大模型。解决方案是通过 P2P 从其他节点获取模型文件,同时需要少量 hack 读取 safetensors 相关的代码。这个思路让我恍然大悟(后面发现 Mooncake 也是这么做的)。回到我们自己推理业务场景,ComfyUI 会加载很多不同种类的模型,加载时均需要将模型从磁盘读取到内存,然后再放到 GPU 显存中,这中间的开销是巨大的(关于详细细节后续文章中展开)。那么,有没有可能构建一个内存级 p2p 网络来分发这些模型?

关于 Nydus

Nydus 是一个非常好的点子,在 AI 的场景下,镜像中大部分文件是没有改变的,例如,一些 python 库的 so 大文件等。Nydus 打破原本 docker 镜像按文件系统层打包存储的逻辑,改为按照文件分块进行存储,从而避免了重复文件反复下载的问题。前几周正好在研究,但是有些顾虑大厂开源项目后续维护问题。会上也问了目前蚂蚁内部使用情况(80% 以上),以及例如 nydusd 挂导致 fuse hang 住的等运维问题解决手段。关于后续规划的 ModelPack,感觉有点类似 Ollama,这块个人觉得蚂蚁内部应该不太会去推进,应用场景太小。

谈谈几点感想

  • 关于灵魂拷问「在 AI 推理的背景下,是否一定需要 K8s?」:
    • K8s 作为 GPU 资源统一纳管层的角色不会被替代,可以通过 Pod 作为 infra 和业务之间界限。Pod 之下,K8s 繁荣的生态可以免去操作系统层面很多不必要的运维工作;Pod 之上,业务需要自身来维护。那能不能把 AI infra 也纳入到 K8s 生态呢,享受 K8s 中例如 HPA 这样的功能?从我个人的角度来说,我觉得比较困难:
      1. 从常规角度思考,「模型」≠「镜像」,「模型 + vLLM 等运行框架」==「镜像」。从镜像开始,才有 Pod 的生命周期,K8s 才能对 Pod 进行管理。所以无法通过只更新模型完成 Pod 的更新。
      2. 如果我们把 vLLM 等框架理解成特殊「容器运行时」,在「容器运行时」中提供了 **UpdateContainerResources**** 来修改容器的资源,那么我们可以把「模型」想象成一种特定的资源来完成更新。但是 **UpdateContainerResources** 目前还是 beta 的状态,并且更新的流程也会牵涉到具体推理框架的实现,难度较大。**
  • 关于大厂:
    • 本次活动中分享的绝多数是大厂:在这轮生成式 AI 的大背景下,大厂相对会更加具有优势,有钱、有人才、有技术沉淀、有场景。
    • Kata 安全容器(针对高机密计算场景):国内大厂的部分团队研究的内容会更具前瞻性,绝大部分场景根本用不到,而这些场景普通团队碰不到。
    • 阿里百炼:MaaS 的生意是不赚钱的。如何做到成本最优化,很多情况下需要有足够大的使用量才有必要通过技术手段来优化成本,才会产生经济效益。至少通过百炼来看,公司财务对成本这块的控制还是比较强势的,从而倒逼技术做优化。
    • 阿里集团、蚂蚁、阿里百炼、通义实验室,在阿里系内部,其实也存在大量重叠的产品。就像蚂蚁有独立的 infra 团队,而不使用阿里云。MaaS 也有多个团队在做,只是有些对外,有些对内。
  • 冷启动做 MaaS 是非常不经济的,前期投入成本过高,后续技术更新迭代节奏也快,「AI 一天,人间一年」