Phi-4-mini-reasoning vLLM服务监控:Prometheus+Grafana指标采集配置教程
1. 前言
在AI模型服务化部署中,监控是确保服务稳定运行的关键环节。本文将详细介绍如何为使用vLLM部署的Phi-4-mini-reasoning文本生成模型配置Prometheus+Grafana监控系统,帮助开发者实时掌握模型服务的运行状态。
Phi-4-mini-reasoning是一个基于合成数据构建的轻量级开源模型,专注于高质量、密集推理的数据处理,支持128K令牌的上下文长度。通过vLLM部署后,配合chainlit前端调用,可以构建完整的文本生成服务。
2. 环境准备
2.1 确认vLLM服务运行状态
在开始配置监控前,首先需要确认vLLM服务已正常运行:
# 检查服务日志 cat /root/workspace/llm.log如果看到类似以下输出,表示服务已成功启动:
INFO: Started server process [1234] INFO: Waiting for application startup. INFO: Application startup complete.2.2 安装必要组件
确保系统中已安装以下组件:
- Prometheus(最新稳定版)
- Grafana(最新稳定版)
- vLLM exporter(用于暴露vLLM指标)
3. Prometheus配置
3.1 安装vLLM exporter
vLLM exporter是一个专门用于收集vLLM服务指标的组件:
pip install vllm-exporter3.2 配置vLLM exporter
创建配置文件/etc/vllm_exporter/config.yml:
vllm: endpoint: "http://localhost:8000" # vLLM服务地址 metrics_path: "/metrics" # 指标路径 interval: 15s # 采集间隔3.3 启动vLLM exporter
vllm_exporter --config.file=/etc/vllm_exporter/config.yml3.4 配置Prometheus采集
编辑Prometheus配置文件/etc/prometheus/prometheus.yml,添加以下内容:
scrape_configs: - job_name: 'vllm' static_configs: - targets: ['localhost:8001'] # vLLM exporter默认端口重启Prometheus服务使配置生效:
systemctl restart prometheus4. Grafana仪表板配置
4.1 添加Prometheus数据源
- 登录Grafana控制台
- 导航到"Configuration" > "Data Sources"
- 选择"Add data source"
- 选择"Prometheus"
- 配置URL为
http://localhost:9090(Prometheus默认地址) - 点击"Save & Test"
4.2 导入vLLM监控仪表板
Grafana社区提供了专门的vLLM监控仪表板模板:
- 导航到"Dashboards" > "Import"
- 输入仪表板ID
18678(vLLM官方仪表板) - 选择之前添加的Prometheus数据源
- 点击"Import"
4.3 关键指标说明
仪表板将展示以下关键指标:
- 请求速率:模型每秒处理的请求数
- 响应时间:请求的平均响应时间
- 错误率:失败请求的百分比
- GPU利用率:GPU计算资源使用情况
- 内存使用:显存和系统内存占用
- 队列长度:等待处理的请求数量
5. 监控指标详解
5.1 性能指标
vllm_requests_total:总请求数vllm_request_duration_seconds:请求处理时间vllm_tokens_generated_total:生成的token总数
5.2 资源指标
vllm_gpu_utilization:GPU利用率百分比vllm_gpu_memory_used:GPU显存使用量vllm_cpu_usage:CPU使用率
5.3 业务指标
vllm_prompt_tokens_total:输入token总数vllm_generated_tokens_total:输出token总数vllm_request_errors_total:错误请求数
6. 告警配置
6.1 Prometheus告警规则
在/etc/prometheus/rules.yml中添加以下告警规则:
groups: - name: vllm-alerts rules: - alert: HighErrorRate expr: rate(vllm_request_errors_total[5m]) / rate(vllm_requests_total[5m]) > 0.05 for: 10m labels: severity: warning annotations: summary: "High error rate on vLLM service" description: "Error rate is {{ $value }} (threshold: 0.05)" - alert: HighGPUTemperature expr: vllm_gpu_temperature > 85 for: 5m labels: severity: critical annotations: summary: "High GPU temperature" description: "GPU temperature is {{ $value }}°C"6.2 Grafana告警配置
- 在仪表板中找到需要监控的图表
- 点击图表标题 > "Edit" > "Alert"
- 配置告警条件和通知渠道
- 保存告警规则
7. 总结
通过本文的配置,我们为Phi-4-mini-reasoning vLLM服务建立了完整的监控系统:
- 数据采集层:使用vLLM exporter收集服务指标
- 存储处理层:Prometheus存储和聚合指标数据
- 可视化层:Grafana提供直观的仪表板展示
- 告警层:配置关键指标的告警规则
这套监控方案可以帮助开发者:
- 实时了解服务运行状态
- 快速定位性能瓶颈
- 及时发现并处理异常情况
- 优化资源配置和请求调度
对于生产环境部署,建议进一步:
- 配置多实例监控和高可用方案
- 定期审查和优化告警规则
- 建立指标数据的长期存储和分析机制
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。