Echomimic虚拟数字人的部署与应用
2026/5/30 4:07:57 网站建设 项目流程

Echomic是蚂蚁集团开发的数字人项目,目前有三个版本,三个版本略有不同,V1版本专注"音频控制人像动画“+可编辑的人脸关键点控制,V2版本增加了半身动画+简化控制条件,v3版本规模更大(有13亿个参数),支持”统一多模态、多任务人类动画”的模型。

本文将介绍Windows下Echomimic V1版本的部署与应用。另外,Linux系统以及EchomimicV2, V3的部署都与V1版本类似,具体步骤如下:

1、代码下载

git clone git@github.com:antgroup/echomimic.git

cd Echomimic

2、ffmpeg下载与配置

通过这个地址找到与本地电脑操作系统适配的ffmpeg下载,

https://github.com/BtbN/FFmpeg-Builds/releases

win11需要下载这个版本:ffmpeg-n6.1.3-win64-gpl-shared-6.1,下载完成后配置ffmpeg的环境变量如下:

setx /M PATH "%PATH%;D:\code\llmops-echomimic\ffmpeg-n6.1.3-win64-gpl-shared-6.1\bin"
setx FFMEG_DIR "D:\code\llmops-echomimic\ffmpeg-n6.1.3-win64-gpl-shared-6.1\ffmpeg"

setx INCLUDE "D:\code\llmops-echomimic\ffmpeg-n6.1.3-win64-gpl-shared- 6.1\include;%INCLUDE%"
setx LIB "D:\code\llmops-echomimic\ffmpeg-n6.1.3-win64-gpl-shared-6.1\lib;%LIB%"

3、下载pretrained_weights模型

下载pretrained_weights总过32G左右,官方提供了两种方式:

3.1、 通过git仓库下载

执行如下命令:

git lfs install git clone https://huggingface.co/BadToBest/EchoMimic pretrained_weights

3.2、 通过Hugging Face CLI下载

由于Git仓库下载不太稳定,下载过程中下载到一半总是报连不上服务器导致下载中断,建议通过Hugging Face CLI下载,具体步骤如下

1、下载并安装Hugging Face CLI

PowerShell管理员权限打开后执行下面命令,HuggingFace CLI下载的步骤如下:

powershell -ExecutionPolicy ByPass -c "irm https://hf.co/cli/install.ps1 | iex"

powershell:表示用 PowerShell 执行命令。
-ExecutionPolicy ByPass:临时允许执行远程脚本(否则系统会阻止)。
irm 是 Invoke-RestMethod 的缩写,用来从网络下载内容。
https://hf.co/cli/install.ps1:Hugging Face 官方提供的安装脚本地址。
| iex:将下载的脚本内容直接执行,相当于“下载并立即运行”。
这段代码的作用是自动安装 Hugging Face 的命令行工具 hf,安装完成后用 hf 命令来登录或下载模型。

也可以通过这个命令升级模型:

powershell -NoProfile -Command "iwr -useb https://hf.co/cli/install.ps1 | iex"

安装完成后执行如下命令查看版本号:老版本 hf --version ,新版本的hugging face 通过 python -c "import huggingface_hub as h; print(h.__version__)"查看版本号

2、登录hf

老版本:hf login

登录的过程中需要输入Token,可以通过如下地址查看自己的Token: https://huggingface.co/settings/tokens

如果没有Token,直接新建一个Token。

新版本登录: hf auth login

3、下载Echomimic模型

hf download BadToBest/EchoMimic --local-dir D:\models\EchoMimic

4、安装依赖

Pycharm中Terminal中通过:pip install -r requirements.txt安装所有依赖

5、功能开发

在原有Echomimic功能的基础上添加生成文案、以及把生成的文案转化为语音的功能。采用Gradio技术编排界面,其中获取文案的功能调用爱乐乐AI Agent生成口播文案。然后调用OpenAI的tts模型将文案转换为语音,结果放到Echomimic需要放置音频的地方。具体流程:文案主题中输入文案,点击获取文案按钮生成文案展示在文案内容中,然后点击生成语音按钮生成的语音在下方生成对应文案的语音。结果如下图所示:

这部分布局代码如下:

6、项目启动

配置启动参数:

启动:

D:\code\llmops-echomimic\venv\Scripts\python.exe D:\code\llmops-echomimic\webgui.py --server_name=127.0.0.1 --server_port=3000

启动成功:

启动成功后,把生成的方案转为语音,然后上传一张照片,点击生成Generate Radio就可以数字人,界面如下:

至此,数字人生成成功!

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询