Kthena v0.4.0 发布:简化大语言模型管理,多特性提升资源利用率与可观测性
2026/4/27 19:18:35 网站建设 项目流程

更快、更智能的路由器 (Router)

此前,Kubernetes 内置的 CRD 校验无法强制实现跨对象的全局唯一性,多个 `ModelRoute` 资源映射到同一模型可能引发路由冲突。Kthena v0.4.0 引入冲突解决机制,路由器会优先选择最早创建的路由,确保路由请求结果可预测且稳定。

此外,Kthena 将硬编码的 Prefix - Cache 参数替换成可配置的系统,可通过 Block Size、Max Block Limits、Cache Capacity、Top - K Results 等参数对其行为进行细粒度控制,以适配多样的模型和业务 LLM 工作负载。

细粒度、资源高效的滚动更新

过去 Kthena 在整个 `ServingGroup` 级别执行滚动更新,对于大规模大型语言模型应用,完全重建 `ServingGroup` 消耗资源且耗时。v0.4.0 引入基于 Role 的滚动更新机制,可动态调整 `rolloutStrategy`,降低升级时的资源消耗,缩短 `ServingGroup` 的不可用时间。

支持 SGLang 和 vLLM 的 PD 分离部署

PD 分离部署架构是大规模 LLM 服务的标准架构。Kthena v0.4.0 中,`modelServing` 和 `Router` 全面验证,支持 vLLM 和 SGLang 的 PD 分离部署,用户可通过 `ModelServing` 配置 Prefill 和 Decode,结合 `ModelServer` 中的 `pdGroup` 配置实现 PD 感知的智能路由,构建高效的 PD 分离推理服务。

提升可观测性

在 Role 状态可见性方面,Kthena 的 `ModelServing` 曾用本地存储缓存 `ServingGroup` 和 `Role` 状态,限制了可观测性。v0.4.0 打破黑盒状态,可通过 Kubernetes Events 暴露 Role 状态,未来还计划将关键 Role 信息嵌入 `ModelServing` 的 Status 中,为开发者提供 debug - port 拉取状态。

在全面的访问日志方面,Router 生成更详细的访问日志,捕获更丰富的路由元数据,相比之前版本新增 `gateway`、`http_route` 和 `inference_pool` 字段,为 Gateway 及 Gateway Inference Extension 的流量提供丰富信息。

开放的生态系统

致力于与开源社区共建开放、包容且繁荣的 Kthena 项目。v0.4.0 在 Kthena 的模型下载器中扩展了对 ModelScope 协议的支持,使用户和运维管理人员可更灵活选择模型仓库。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询