LangChain-Chatchat本地部署与配置指南-酒店常州论坛

LangChain-Chatchat 本地部署与配置实战指南

在企业知识管理日益依赖 AI 的今天，如何构建一个安全、可控且高效的私有化问答系统，成为不少技术团队关注的核心问题。尤其当涉及敏感文档、内部流程或客户数据时，将信息上传至公有云模型显然不可接受。于是，像LangChain-Chatchat这类支持本地部署的知识库问答框架，便成了理想选择。

本文基于LangChain-Chatchat v0.3.1版本，结合推理服务 Xinference，完整记录从零搭建一套中文友好的本地 RAG（检索增强生成）系统的全过程。整个流程覆盖环境准备、模型接入、配置调优和知识库初始化，适用于希望在内网环境中实现智能问答的企业开发者与技术负责人。

环境准备：软硬件要求与工具链选型

在动手之前，先明确运行这套系统的“地基”是否稳固。LangChain-Chatchat 本身是一个轻量级的调度层，真正的计算压力落在大语言模型（LLM）和嵌入模型（Embedding Model）上，因此对硬件有一定门槛。

软件依赖

Python 版本：推荐使用3.10，兼容范围为 3.8 ~ 3.11。
操作系统：Windows 10/11、macOS（Intel/M1 均可）、Linux（Ubuntu/CentOS/Debian 主流发行版）。
包管理工具：强烈建议使用conda或miniconda创建独立虚拟环境，避免依赖冲突。
推理后端支持：支持多种服务接入，包括 Xinference、Ollama、FastChat、LocalAI 等。本文以 Xinference 为例，因其对国产模型适配良好，且提供图形化界面便于管理。

硬件建议

组件	最低要求	推荐配置
CPU	8核以上	16核 Intel/AMD
内存	16GB	≥32GB
GPU	-	NVIDIA 显卡 ≥12GB 显存（如 RTX 3090 / A10 / L4）
存储空间	50GB 可用 SSD	≥200GB SSD（用于缓存模型与知识库）

⚠️ 自v0.3.0起，LangChain-Chatchat 不再直接加载本地.bin或gguf模型文件，而是通过标准 API 接口调用外部推理服务（如 Xinference）。这意味着模型由独立服务托管，Chatchat 仅负责请求转发与流程编排。

这种架构解耦了应用逻辑与模型运行，提升了灵活性，但也要求我们提前部署好推理服务，并确保网络可达。

安装步骤详解

1. 安装 LangChain-Chatchat 主体程序

首先创建专用 Conda 环境：

# 创建名为 chatchat 的虚拟环境 conda create -n chatchat python=3.10 # 激活环境 conda activate chatchat # 使用清华源加速安装（包含 Xinference 支持插件） pip install "langchain-chatchat[xinference]" -U -i https://pypi.tuna.tsinghua.edu.cn/simple

安装完成后验证版本：

chatchat --version

预期输出：

langchain-chatchat version: 0.3.1

如果提示命令未找到，请检查pip是否正确安装到当前环境，或尝试重新激活 shell。

2. 部署推理服务：Xinference

Xinference 是一个分布式模型推理框架，支持 LLM、Embedding、Reranker 等多种类型模型，特别适合本地私有化部署场景。

新建独立环境运行 Xinference，避免依赖干扰：

# 创建 xinference 环境 conda create -n xinference python=3.10 conda activate xinference # 安装全功能组件包 pip install "xinference[all]"

测试安装是否成功：

xinference --help

若能正常显示帮助信息，则说明安装成功。

启动服务并开放 Web UI：

xinference-local --host 0.0.0.0 --port 9997

浏览器访问 http://127.0.0.1:9997，即可看到图形化管理界面，用于后续模型部署。

常见安装问题及解决方案

尽管整体流程清晰，但在实际操作中仍可能遇到一些棘手的依赖编译问题。以下是几个高频报错及其应对策略。

问题1：Failed building wheel for llama-cpp-python

错误日志片段：

Failed building wheel for llama-cpp-python Could not build wheels for llama-cpp-python, which is required...

原因分析：
llama-cpp-python包含 C++ 扩展，在部分平台（尤其是 Windows 和 ARM 架构 Mac）上需要本地编译工具链。若缺少 Visual Studio Build Tools、gcc 或 CUDA 环境，会导致构建失败。

解决方法：
跳过源码编译，改用预编译的.whl文件。

前往官方 Release 页面下载对应版本：
👉 https://github.com/abetlen/llama-cpp-python/releases

例如：

Windows + Python 3.10 →llama_cpp_python-0.2.90-cp310-cp310-win_amd64.whl
Linux + CUDA 支持 → 查找带-cu118或-cu121后缀的版本

安装命令如下：

pip install llama_cpp_python-0.2.90-cp310-cp310-linux_x86_64.whl

之后再执行pip install xinference[all]即可绕过该模块的编译阶段。

问题2：pynini 编译失败

错误提示：

ERROR: Failed building wheel for pynini Failed to build installable wheels for some pyproject.toml based projects (pynini)

原因分析：
pynini是文本规范化的重要依赖，但其原生编译复杂度高，尤其在非 Linux 平台上极易失败。

解决方法：
使用 Conda 安装预编译版本，避免手动编译：

conda install -c conda-forge pynini=2.1.5

安装成功后继续其他依赖安装即可。这是最稳定、最推荐的方式。

问题3：Xinference 启动时报错`libc.musl-x86_64.so.1`找不到

典型错误日志：

OSError: libc.musl-x86_64.so.1: cannot open shared object file RuntimeError: Failed to load shared library 'libllama.so'

原因分析：
此问题多见于 Alpine Linux 或某些轻量容器环境，系统采用 musl libc 而非 glibc，导致动态链接失败。

解决方案：

先尝试查找是否存在该库文件：

sudo find / -name "libc.musl*.so*" 2>/dev/null

若未找到，可手动安装 musl：

curl https://musl.libc.org/releases/musl-1.2.2.tar.gz -o musl-1.2.2.tar.gz tar -xzf musl-1.2.2.tar.gz cd musl-1.2.2 ./configure make && sudo make install

建立软连接（假设已安装 CUDA）：

sudo ln -s /usr/local/cuda/compat/libcuda.so.1 /lib/libc.musl-x86_64.so.1

注意：路径需根据实际环境调整，且/lib必须是系统库搜索路径之一。必要时可通过ldconfig -p | grep cuda检查现有库位置。

初始化项目结构与核心配置

完成基础安装后，进入正式部署环节。

1. 初始化项目目录

新建工作目录并初始化 Chatchat 结构：

mkdir chat-demo && cd chat-demo chatchat init

成功后生成以下目录结构：

chat-demo/ ├── config/ │ ├── basic_settings.yaml │ ├── model_settings.yaml │ ├── kb_settings.yaml │ ├── prompt_settings.yaml │ └── tool_settings.yaml └── data/ ├── knowledge_base/ └── models/

这些 YAML 文件是整个系统的“大脑”，决定了模型调用方式、服务监听地址、知识库存储路径等关键参数。

2. 启动 Xinference 并部署模型

保持 Xinference 服务运行（前文已启动），打开 http://127.0.0.1:9997，点击 “Launch Model” → “Large Language Model”。

推荐选择以下中文优化模型：

qwen2-7b-chat（通义千问）
baichuan2-13b-chat
chatglm3-6b

填写参数：

Model Name：自定义名称（如my-qwen）
Quantization：推荐q4_K_M，兼顾性能与显存占用
Replica：设为 1（单卡测试）

首次部署会自动从 Hugging Face 或 ModelScope 下载权重。建议勾选“Use ModelScope”以提升国内下载速度。

等待状态变为Running表示部署成功。

3. 注册本地已有模型（可选）

如果你已有本地保存的模型（如/models/Qwen-7B-Chat），可在 Xinference 中选择 “Register Model” 手动注册：

Model Type：LLM
Model Name：local-qwen
Model Format：pytorch或gguf
Model URI：本地路径，如/models/Qwen-7B-Chat

保存后即可像远程模型一样启动使用。

4. 部署向量嵌入模型（Embedding Model）

知识库问答的核心在于语义检索，这依赖 Embedding 模型将文本转化为向量。推荐使用以下高性能中文模型：

bge-m3
text2vec-large-chinese
m3e-base

操作方式相同，在 “Launch Model” 中选择 “Embedding” 类型，输入模型名并启动。

部署完成后记下模型名称，后续将在model_settings.yaml中引用。

修改核心配置文件

1. 配置默认模型（model_settings.yaml）

编辑config/model_settings.yaml，关键字段如下：

DEFAULT_LLM_MODEL: qwen2-7b-chat DEFAULT_EMBEDDING_MODEL: bge-m3 MODEL_PLATFORMS: - platform_name: xinference platform_type: xinference api_base_url: http://127.0.0.1:9997/v1 LLM_MODEL_CONFIG: qwen2-7b-chat: server_type: xinference model_name: qwen2-7b-chat api_key: none

📌注意事项：
-api_base_url必须指向 Xinference 的 API 地址（默认端口 9997）
-model_name必须与 Xinference 中显示的完全一致（区分大小写）

2. 自定义知识库存储路径（basic_settings.yaml，可选）

默认路径为data/knowledge_base，如需更改，请修改：

KB_ROOT_PATH: /your/custom/path/knowledge_base DB_ROOT_PATH: /your/custom/path/knowledge_base/info.db SQLALCHEMY_DATABASE_URI: sqlite:////your/custom/path/knowledge_base/info.db

确保目标目录存在且有读写权限。

3. 调整服务监听地址与端口

默认情况下，API 和 WebUI 仅监听localhost。若需局域网访问，需修改为0.0.0.0：

API_SERVER: host: 0.0.0.0 port: 7861 public_host: 192.168.1.100 # 替换为你的实际 IP public_port: 7861 WEBUI_SERVER: host: 0.0.0.0 port: 8501

⚠️ Windows 用户注意：设置host: 0.0.0.0后，浏览器不会自动弹出页面，需手动访问http://127.0.0.1:8501。

构建知识库并启动服务

1. 初始化知识库索引

在启动主服务前，需让系统扫描文档并建立向量索引：

cd chat-demo chatchat kb -r

该命令会：

加载配置中的 Embedding 模型
扫描KB_ROOT_PATH下所有支持格式（TXT/PDF/DOCX/PPTX/CSV/HTML 等）
分块处理、向量化并存入 FAISS 数据库

出现Knowledge base initialized successfully.即表示成功。

2. 启动主服务

最后一步，启动 LangChain-Chatchat 主程序：

chatchat start -a

成功启动后输出类似：

INFO: Uvicorn running on http://0.0.0.0:7861 INFO: Application startup complete. WebUI: http://0.0.0.0:8501

浏览器访问 http://127.0.0.1:8501，你将看到交互式界面，支持：

创建多个知识库
上传各类文档
输入自然语言问题获取基于本地知识的回答

🎉 至此，一套完整的本地知识库问答系统已就绪！

总结与延伸思考

LangChain-Chatchat + Xinference 的组合，为私有化 AI 应用提供了强大而灵活的基础架构。它不仅保障了数据不出内网的安全性，还通过模块化设计实现了良好的扩展能力。

这套方案已在多个企业内部知识管理系统中落地，适用于技术支持问答、员工培训资料查询、产品手册检索等场景。

未来可进一步优化的方向包括：

使用 Milvus 或 Pinecone 替代 FAISS，实现更高性能的向量检索
集成 vLLM 或 TensorRT-LLM 提升推理吞吐
添加用户权限控制与多租户支持，满足更大规模部署需求

对于追求稳定性和中文体验的技术团队来说，这个技术栈值得深入探索和长期投入。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

企业官网建设流程全解析

LangChain-Chatchat 本地部署与配置实战指南

环境准备：软硬件要求与工具链选型

软件依赖

硬件建议

安装步骤详解

1. 安装 LangChain-Chatchat 主体程序

2. 部署推理服务：Xinference

常见安装问题及解决方案

问题1：Failed building wheel for llama-cpp-python

问题2：pynini 编译失败

问题3：Xinference 启动时报错`libc.musl-x86_64.so.1`找不到

初始化项目结构与核心配置

1. 初始化项目目录

2. 启动 Xinference 并部署模型

3. 注册本地已有模型（可选）

4. 部署向量嵌入模型（Embedding Model）

修改核心配置文件

1. 配置默认模型（model_settings.yaml）

2. 自定义知识库存储路径（basic_settings.yaml，可选）

3. 调整服务监听地址与端口

构建知识库并启动服务

1. 初始化知识库索引

2. 启动主服务

总结与延伸思考

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

LangChain-Chatchat 本地部署与配置实战指南

环境准备：软硬件要求与工具链选型

软件依赖

硬件建议

安装步骤详解

1. 安装 LangChain-Chatchat 主体程序

2. 部署推理服务：Xinference

常见安装问题及解决方案

问题1：Failed building wheel for llama-cpp-python

问题2：pynini 编译失败

问题3：Xinference 启动时报错libc.musl-x86_64.so.1找不到

初始化项目结构与核心配置

1. 初始化项目目录

2. 启动 Xinference 并部署模型

3. 注册本地已有模型（可选）

4. 部署向量嵌入模型（Embedding Model）

修改核心配置文件

1. 配置默认模型（model_settings.yaml）

2. 自定义知识库存储路径（basic_settings.yaml，可选）

3. 调整服务监听地址与端口

构建知识库并启动服务

1. 初始化知识库索引

2. 启动主服务

总结与延伸思考

热门文章

文章分类

标签云

相关文章

需要专业的网站建设服务？

问题3：Xinference 启动时报错`libc.musl-x86_64.so.1`找不到