Kthena v0.4.0 发布：简化大语言模型管理，多特性提升资源利用率与可观测性-酒店常州论坛

更快、更智能的路由器 (Router)

此前，Kubernetes 内置的 CRD 校验无法强制实现跨对象的全局唯一性，多个 `ModelRoute` 资源映射到同一模型可能引发路由冲突。Kthena v0.4.0 引入冲突解决机制，路由器会优先选择最早创建的路由，确保路由请求结果可预测且稳定。

此外，Kthena 将硬编码的 Prefix - Cache 参数替换成可配置的系统，可通过 Block Size、Max Block Limits、Cache Capacity、Top - K Results 等参数对其行为进行细粒度控制，以适配多样的模型和业务 LLM 工作负载。

细粒度、资源高效的滚动更新

过去 Kthena 在整个 `ServingGroup` 级别执行滚动更新，对于大规模大型语言模型应用，完全重建 `ServingGroup` 消耗资源且耗时。v0.4.0 引入基于 Role 的滚动更新机制，可动态调整 `rolloutStrategy`，降低升级时的资源消耗，缩短 `ServingGroup` 的不可用时间。

支持 SGLang 和 vLLM 的 PD 分离部署

PD 分离部署架构是大规模 LLM 服务的标准架构。Kthena v0.4.0 中，`modelServing` 和 `Router` 全面验证，支持 vLLM 和 SGLang 的 PD 分离部署，用户可通过 `ModelServing` 配置 Prefill 和 Decode，结合 `ModelServer` 中的 `pdGroup` 配置实现 PD 感知的智能路由，构建高效的 PD 分离推理服务。

提升可观测性

在 Role 状态可见性方面，Kthena 的 `ModelServing` 曾用本地存储缓存 `ServingGroup` 和 `Role` 状态，限制了可观测性。v0.4.0 打破黑盒状态，可通过 Kubernetes Events 暴露 Role 状态，未来还计划将关键 Role 信息嵌入 `ModelServing` 的 Status 中，为开发者提供 debug - port 拉取状态。

在全面的访问日志方面，Router 生成更详细的访问日志，捕获更丰富的路由元数据，相比之前版本新增 `gateway`、`http_route` 和 `inference_pool` 字段，为 Gateway 及 Gateway Inference Extension 的流量提供丰富信息。

开放的生态系统

致力于与开源社区共建开放、包容且繁荣的 Kthena 项目。v0.4.0 在 Kthena 的模型下载器中扩展了对 ModelScope 协议的支持，使用户和运维管理人员可更灵活选择模型仓库。

企业官网建设流程全解析

更快、更智能的路由器 (Router)

细粒度、资源高效的滚动更新

支持 SGLang 和 vLLM 的 PD 分离部署

提升可观测性

开放的生态系统

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

更快、更智能的路由器 (Router)

细粒度、资源高效的滚动更新

支持 SGLang 和 vLLM 的 PD 分离部署

提升可观测性

开放的生态系统

热门文章

文章分类

标签云

相关文章

Elasticsearch 评分实战：field_value_factor 自定义评分原理与调优全攻略

3分钟掌握百度网盘提取码智能获取：告别繁琐搜索的终极方案

第20篇：完整实战：从 Issue 到 PR 合并，搭建 AI 协同开发闭环

需要专业的网站建设服务？