Phi-3.5-mini-instruct部署教程:vLLM服务启动+Chainlit前端访问详解
2026/4/24 15:09:05 网站建设 项目流程

Phi-3.5-mini-instruct部署教程:vLLM服务启动+Chainlit前端访问详解

1. 模型简介

Phi-3.5-mini-instruct 是一个轻量级但功能强大的开源文本生成模型,属于Phi-3模型家族。这个模型基于高质量的训练数据构建,特别注重推理能力和指令遵循能力。

核心特点

  • 支持128K超长上下文
  • 经过监督微调、近端策略优化和直接偏好优化
  • 具备强大的安全措施
  • 轻量级设计,适合快速部署

2. 环境准备

2.1 系统要求

在开始部署前,请确保您的系统满足以下要求:

  • 操作系统:Linux (推荐Ubuntu 20.04或更高版本)
  • Python版本:3.8或更高
  • GPU:至少16GB显存 (推荐NVIDIA A10G或更高)
  • 内存:32GB或更高
  • 存储空间:至少50GB可用空间

2.2 依赖安装

运行以下命令安装必要依赖:

pip install vllm chainlit torch transformers

3. 使用vLLM部署模型

3.1 启动vLLM服务

使用以下命令启动vLLM服务:

python -m vllm.entrypoints.api_server \ --model Phi-3.5-mini-instruct \ --tensor-parallel-size 1 \ --gpu-memory-utilization 0.9

参数说明

  • --model:指定要加载的模型
  • --tensor-parallel-size:GPU并行数量
  • --gpu-memory-utilization:GPU内存利用率

3.2 验证服务状态

服务启动后,可以通过以下命令检查日志:

cat /root/workspace/llm.log

如果看到类似以下输出,表示服务已成功启动:

INFO 07-10 15:30:12 llm_engine.py:72] Initializing an LLM engine... INFO 07-10 15:30:15 llm_engine.py:89] Engine created successfully.

4. 使用Chainlit创建前端界面

4.1 创建Chainlit应用

创建一个名为app.py的文件,内容如下:

import chainlit as cl from vllm import LLM, SamplingParams @cl.on_chat_start async def on_chat_start(): # 初始化vLLM客户端 llm = LLM(model="Phi-3.5-mini-instruct") cl.user_session.set("llm", llm) # 设置默认采样参数 sampling_params = SamplingParams(temperature=0.7, top_p=0.9) cl.user_session.set("sampling_params", sampling_params) await cl.Message(content="Phi-3.5-mini-instruct已准备好,请问您有什么问题?").send() @cl.on_message async def on_message(message: cl.Message): llm = cl.user_session.get("llm") sampling_params = cl.user_session.get("sampling_params") # 生成响应 output = llm.generate([message.content], sampling_params) response = output[0].outputs[0].text await cl.Message(content=response).send()

4.2 启动Chainlit服务

运行以下命令启动Chainlit前端:

chainlit run app.py -w

服务启动后,默认会在http://localhost:8000提供Web界面。

5. 使用指南

5.1 访问前端界面

打开浏览器,访问http://localhost:8000,您将看到Chainlit的聊天界面。

5.2 与模型交互

在输入框中输入您的问题或指令,例如:

  • "请用简单的语言解释量子计算"
  • "写一篇关于人工智能未来发展的短文"
  • "帮我总结这篇文章的主要内容"

模型会生成响应并显示在界面上。

5.3 调整生成参数

如果需要调整生成参数,可以修改app.py中的SamplingParams

sampling_params = SamplingParams( temperature=0.7, # 控制随机性 (0-1) top_p=0.9, # 核采样参数 max_tokens=512, # 最大生成token数 frequency_penalty=0.5 # 频率惩罚 )

6. 常见问题解决

6.1 模型加载失败

问题现象:服务启动时报错,无法加载模型

解决方案

  1. 检查模型路径是否正确
  2. 确保有足够的GPU内存
  3. 尝试降低--gpu-memory-utilization参数值

6.2 生成速度慢

问题现象:响应时间过长

解决方案

  1. 检查GPU利用率
  2. 减少max_tokens参数值
  3. 考虑使用更强大的GPU

6.3 前端无法访问

问题现象:浏览器无法打开Chainlit界面

解决方案

  1. 检查服务是否正常运行
  2. 确认端口未被占用
  3. 检查防火墙设置

7. 总结

本教程详细介绍了如何使用vLLM部署Phi-3.5-mini-instruct模型,并通过Chainlit创建用户友好的前端界面。这套方案具有以下优势:

  1. 高效推理:vLLM提供高性能的模型服务
  2. 易用界面:Chainlit简化了交互过程
  3. 灵活配置:可根据需求调整生成参数

通过本教程,您应该能够快速搭建起一个功能完整的文本生成服务,并开始探索Phi-3.5-mini-instruct的强大能力。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询