Phi-3.5-mini-instruct部署教程：vLLM服务启动+Chainlit前端访问详解-酒店常州论坛

Phi-3.5-mini-instruct部署教程：vLLM服务启动+Chainlit前端访问详解

1. 模型简介

Phi-3.5-mini-instruct 是一个轻量级但功能强大的开源文本生成模型，属于Phi-3模型家族。这个模型基于高质量的训练数据构建，特别注重推理能力和指令遵循能力。

核心特点：

支持128K超长上下文
经过监督微调、近端策略优化和直接偏好优化
具备强大的安全措施
轻量级设计，适合快速部署

2. 环境准备

2.1 系统要求

在开始部署前，请确保您的系统满足以下要求：

操作系统：Linux (推荐Ubuntu 20.04或更高版本)
Python版本：3.8或更高
GPU：至少16GB显存 (推荐NVIDIA A10G或更高)
内存：32GB或更高
存储空间：至少50GB可用空间

2.2 依赖安装

运行以下命令安装必要依赖：

pip install vllm chainlit torch transformers

3. 使用vLLM部署模型

3.1 启动vLLM服务

使用以下命令启动vLLM服务：

python -m vllm.entrypoints.api_server \ --model Phi-3.5-mini-instruct \ --tensor-parallel-size 1 \ --gpu-memory-utilization 0.9

参数说明：

--model：指定要加载的模型
--tensor-parallel-size：GPU并行数量
--gpu-memory-utilization：GPU内存利用率

3.2 验证服务状态

服务启动后，可以通过以下命令检查日志：

cat /root/workspace/llm.log

如果看到类似以下输出，表示服务已成功启动：

INFO 07-10 15:30:12 llm_engine.py:72] Initializing an LLM engine... INFO 07-10 15:30:15 llm_engine.py:89] Engine created successfully.

4. 使用Chainlit创建前端界面

4.1 创建Chainlit应用

创建一个名为app.py的文件，内容如下：

import chainlit as cl from vllm import LLM, SamplingParams @cl.on_chat_start async def on_chat_start(): # 初始化vLLM客户端 llm = LLM(model="Phi-3.5-mini-instruct") cl.user_session.set("llm", llm) # 设置默认采样参数 sampling_params = SamplingParams(temperature=0.7, top_p=0.9) cl.user_session.set("sampling_params", sampling_params) await cl.Message(content="Phi-3.5-mini-instruct已准备好，请问您有什么问题？").send() @cl.on_message async def on_message(message: cl.Message): llm = cl.user_session.get("llm") sampling_params = cl.user_session.get("sampling_params") # 生成响应 output = llm.generate([message.content], sampling_params) response = output[0].outputs[0].text await cl.Message(content=response).send()

4.2 启动Chainlit服务

运行以下命令启动Chainlit前端：

chainlit run app.py -w

服务启动后，默认会在http://localhost:8000提供Web界面。

5. 使用指南

5.1 访问前端界面

打开浏览器，访问http://localhost:8000，您将看到Chainlit的聊天界面。

5.2 与模型交互

在输入框中输入您的问题或指令，例如：

"请用简单的语言解释量子计算"
"写一篇关于人工智能未来发展的短文"
"帮我总结这篇文章的主要内容"

模型会生成响应并显示在界面上。

5.3 调整生成参数

如果需要调整生成参数，可以修改app.py中的SamplingParams：

sampling_params = SamplingParams( temperature=0.7, # 控制随机性 (0-1) top_p=0.9, # 核采样参数 max_tokens=512, # 最大生成token数 frequency_penalty=0.5 # 频率惩罚 )

6. 常见问题解决

6.1 模型加载失败

问题现象：服务启动时报错，无法加载模型

解决方案：

检查模型路径是否正确
确保有足够的GPU内存
尝试降低--gpu-memory-utilization参数值

6.2 生成速度慢

问题现象：响应时间过长

解决方案：

检查GPU利用率
减少max_tokens参数值
考虑使用更强大的GPU

6.3 前端无法访问

问题现象：浏览器无法打开Chainlit界面

解决方案：

检查服务是否正常运行
确认端口未被占用
检查防火墙设置

7. 总结

本教程详细介绍了如何使用vLLM部署Phi-3.5-mini-instruct模型，并通过Chainlit创建用户友好的前端界面。这套方案具有以下优势：

高效推理：vLLM提供高性能的模型服务
易用界面：Chainlit简化了交互过程
灵活配置：可根据需求调整生成参数

通过本教程，您应该能够快速搭建起一个功能完整的文本生成服务，并开始探索Phi-3.5-mini-instruct的强大能力。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

企业官网建设流程全解析