Kubernetes 上构建 AI 基础设施全景实践-酒店常州论坛

Kubernetes 上构建 AI 基础设施全景实践

在 Kubernetes 上构建 AI 基础设施，GPU 治理 / 推理平台 / 模型治理并不是孤立组件，而是一个强耦合的系统工程。

其核心目标只有一句话：

用最少的 GPU 成本，稳定支撑可规模化的 AI 服务。

底层：GPU 资源治理

GPU 调度 / 隔离 / MIG

共享 / Time-Slicing / DRA

GPU & 网络健康监控

中层：推理平台 & 流量治理

vLLM 推理池

Kthena Router
Prompt-aware 调度

KV Cache 治理

自动扩缩容 & 冷启动优化

顶层：模型治理 & 安全 & SLA

模型版本 / 合规 / 审计

访问控制 / Guardrails

成本 / SLA / 输出漂移监控

# GPU 节点打标签 kubectl label node gpu-node-1 accelerator=nvidia-a100 # GPU 节点加污点 kubectl taint node gpu-node-1 nvidia.com/gpu=present:NoSchedule

# 推理 Pod 容忍 GPU 污点 tolerations: - key: "nvidia.com/gpu"   operator: "Exists"   effect: "NoSchedule"

👉结论：

GPU 节点必须专用，这是所有 AI 平台稳定性的前提。

技术	适用场景
MIG	强隔离、稳定 SLA