使用Docker Compose部署Qwen3-ASR-1.7B微服务集群-酒店常州论坛

使用Docker Compose部署Qwen3-ASR-1.7B微服务集群

1. 引言

语音识别技术正在快速改变我们与设备交互的方式，从智能助手到客服系统，再到实时翻译，都离不开高效准确的语音转文字能力。Qwen3-ASR-1.7B作为通义千问团队开源的最新语音识别模型，不仅支持52种语言和方言，还能在复杂环境中保持稳定的识别效果。

但单个模型实例往往难以应对高并发场景，这时候就需要构建微服务集群。今天我就来手把手教你如何使用Docker Compose快速部署一个高可用的Qwen3-ASR-1.7B微服务集群，包含负载均衡、健康检查等生产级功能。

2. 环境准备与基础概念

2.1 系统要求

在开始之前，确保你的系统满足以下要求：

Linux系统（Ubuntu 20.04+或CentOS 8+）
Docker Engine 20.10+
Docker Compose 2.0+
NVIDIA显卡（建议RTX 3080以上）
NVIDIA Container Toolkit

2.2 核心组件介绍

我们这个集群包含几个关键组件：

ASR服务实例：实际运行语音识别模型的容器
Nginx：作为负载均衡器，分发请求到各个服务实例
健康检查：定期检查服务状态，确保集群健康运行

3. 部署步骤详解

3.1 创建项目目录结构

首先创建一个清晰的项目目录：

mkdir qwen3-asr-cluster cd qwen3-asr-cluster mkdir config models logs

3.2 编写Docker Compose配置

创建docker-compose.yml文件：

version: '3.8' services: # ASR服务实例1 asr-service-1: image: qwen/asr:latest deploy: resources: reservations: devices: - driver: nvidia count: 1 capabilities: [gpu] volumes: - ./models:/app/models - ./logs:/app/logs environment: - MODEL_PATH=/app/models/Qwen3-ASR-1.7B - PORT=8000 ports: - "8001:8000" healthcheck: test: ["CMD", "curl", "-f", "http://localhost:8000/health"] interval: 30s timeout: 10s retries: 3 # ASR服务实例2 asr-service-2: image: qwen/asr:latest deploy: resources: reservations: devices: - driver: nvidia count: 1 capabilities: [gpu] volumes: - ./models:/app/models - ./logs:/app/logs environment: - MODEL_PATH=/app/models/Qwen3-ASR-1.7B - PORT=8000 ports: - "8002:8000" healthcheck: test: ["CMD", "curl", "-f", "http://localhost:8000/health"] interval: 30s timeout: 10s retries: 3 # 负载均衡器 nginx: image: nginx:alpine ports: - "80:80" volumes: - ./config/nginx.conf:/etc/nginx/nginx.conf depends_on: - asr-service-1 - asr-service-2

3.3 配置Nginx负载均衡

创建config/nginx.conf配置文件：

events { worker_connections 1024; } http { upstream asr_backend { server asr-service-1:8000; server asr-service-2:8000; } server { listen 80; location / { proxy_pass http://asr_backend; proxy_set_header Host $host; proxy_set_header X-Real-IP $remote_addr; } location /health { proxy_pass http://asr_backend/health; } } }

3.4 准备模型文件

由于模型文件较大，建议提前下载到本地：

# 使用ModelScope下载模型 pip install modelscope modelscope download --model Qwen/Qwen3-ASR-1.7B --cache-dir ./models # 或者使用Hugging Face pip install huggingface_hub huggingface-cli download Qwen/Qwen3-ASR-1.7B --local-dir ./models/Qwen3-ASR-1.7B

3.5 创建ASR服务Dockerfile

创建Dockerfile来构建自定义镜像：

FROM pytorch/pytorch:2.0.1-cuda11.7-cudnn8-runtime # 安装依赖 RUN pip install --no-cache-dir \ qwen-asr[vllm] \ fastapi \ uvicorn \ python-multipart # 创建工作目录 WORKDIR /app # 复制启动脚本 COPY start_server.py . # 暴露端口 EXPOSE 8000 # 启动服务 CMD ["python", "start_server.py"]

创建启动脚本start_server.py：

from fastapi import FastAPI from qwen_asr import Qwen3ASRModel import torch import os app = FastAPI() # 加载模型 model_path = os.getenv('MODEL_PATH', '/app/models/Qwen3-ASR-1.7B') model = Qwen3ASRModel.from_pretrained( model_path, dtype=torch.bfloat16, device_map="auto" ) @app.post("/transcribe") async def transcribe_audio(audio_url: str): """语音转录接口""" results = model.transcribe(audio=audio_url, language=None) return { "language": results[0].language, "text": results[0].text } @app.get("/health") async def health_check(): """健康检查接口""" return {"status": "healthy"}

4. 启动与测试集群

4.1 启动所有服务

# 构建并启动所有服务 docker-compose up -d --build # 查看服务状态 docker-compose ps # 查看日志 docker-compose logs -f

4.2 测试集群功能

创建测试脚本test_cluster.py：

import requests import json def test_transcription(): url = "http://localhost:80/transcribe" headers = {"Content-Type": "application/json"} # 测试音频URL test_audio = "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav" data = {"audio_url": test_audio} response = requests.post(url, headers=headers, json=data) if response.status_code == 200: result = response.json() print(f"识别语言: {result['language']}") print(f"识别文本: {result['text']}") else: print(f"请求失败: {response.status_code}") if __name__ == "__main__": test_transcription()

运行测试：

python test_cluster.py

4.3 验证负载均衡

通过多次请求观察负载均衡效果：

# 发送多个请求，观察它们被分配到不同的实例 for i in {1..10}; do curl -X POST http://localhost/transcribe \ -H "Content-Type: application/json" \ -d '{"audio_url":"https://example.com/audio.wav"}' \ -s -o /dev/null -w "请求 $i: 响应时间: %{time_total}s\n" done

5. 生产环境优化建议

5.1 资源监控与扩缩容

在实际生产环境中，你可能需要根据负载动态调整实例数量。可以考虑使用：

资源监控：使用Prometheus监控GPU使用率和内存占用
自动扩缩容：基于监控指标自动增加或减少实例数量
日志收集：使用ELK栈或Loki收集和分析日志

5.2 安全加固

API密钥认证：为转录接口添加认证机制
速率限制：防止API被滥用
网络隔离：使用Docker网络隔离各个服务

5.3 性能优化

模型量化：使用8位或4位量化减少内存占用
批处理：调整批处理大小以优化吞吐量
缓存：对常见请求结果进行缓存

6. 总结

通过Docker Compose部署Qwen3-ASR-1.7B微服务集群，我们实现了一个高可用、可扩展的语音识别解决方案。这个方案不仅提供了负载均衡和健康检查，还为后续的监控和扩缩容打下了基础。

实际部署过程中，你可能需要根据具体的硬件配置和业务需求调整一些参数，比如实例数量、批处理大小等。如果遇到性能瓶颈，可以尝试模型量化或者增加GPU资源。

这个集群方案已经能够处理大多数生产场景的需求，从实时语音转写到批量音频处理都能胜任。如果你有更复杂的需求，比如流式识别或者多模态处理，也可以在这个基础上进行扩展。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

企业官网建设流程全解析