Echomimic虚拟数字人的部署与应用-酒店常州论坛

Echomic是蚂蚁集团开发的数字人项目，目前有三个版本，三个版本略有不同，V1版本专注"音频控制人像动画“+可编辑的人脸关键点控制，V2版本增加了半身动画+简化控制条件，v3版本规模更大（有13亿个参数），支持”统一多模态、多任务人类动画”的模型。

本文将介绍Windows下Echomimic V1版本的部署与应用。另外，Linux系统以及EchomimicV2, V3的部署都与V1版本类似，具体步骤如下：

1、代码下载

git clone git@github.com:antgroup/echomimic.git

cd Echomimic

2、ffmpeg下载与配置

通过这个地址找到与本地电脑操作系统适配的ffmpeg下载,

https://github.com/BtbN/FFmpeg-Builds/releases

win11需要下载这个版本:ffmpeg-n6.1.3-win64-gpl-shared-6.1，下载完成后配置ffmpeg的环境变量如下:

setx /M PATH "%PATH%;D:\code\llmops-echomimic\ffmpeg-n6.1.3-win64-gpl-shared-6.1\bin"
setx FFMEG_DIR "D:\code\llmops-echomimic\ffmpeg-n6.1.3-win64-gpl-shared-6.1\ffmpeg"

setx INCLUDE "D:\code\llmops-echomimic\ffmpeg-n6.1.3-win64-gpl-shared- 6.1\include;%INCLUDE%"
setx LIB "D:\code\llmops-echomimic\ffmpeg-n6.1.3-win64-gpl-shared-6.1\lib;%LIB%"

3、下载pretrained_weights模型

下载pretrained_weights总过32G左右，官方提供了两种方式:

3.1、通过git仓库下载

执行如下命令：

git lfs install git clone https://huggingface.co/BadToBest/EchoMimic pretrained_weights

3.2、通过Hugging Face CLI下载

由于Git仓库下载不太稳定，下载过程中下载到一半总是报连不上服务器导致下载中断，建议通过Hugging Face CLI下载，具体步骤如下

1、下载并安装Hugging Face CLI

PowerShell管理员权限打开后执行下面命令，HuggingFace CLI下载的步骤如下：

powershell -ExecutionPolicy ByPass -c "irm https://hf.co/cli/install.ps1 | iex"

powershell：表示用 PowerShell 执行命令。
-ExecutionPolicy ByPass：临时允许执行远程脚本（否则系统会阻止）。
irm 是 Invoke-RestMethod 的缩写，用来从网络下载内容。
https://hf.co/cli/install.ps1：Hugging Face 官方提供的安装脚本地址。
| iex：将下载的脚本内容直接执行，相当于“下载并立即运行”。
这段代码的作用是自动安装 Hugging Face 的命令行工具 hf，安装完成后用 hf 命令来登录或下载模型。

也可以通过这个命令升级模型:

powershell -NoProfile -Command "iwr -useb https://hf.co/cli/install.ps1 | iex"

安装完成后执行如下命令查看版本号：老版本 hf --version ,新版本的hugging face 通过 python -c "import huggingface_hub as h; print(h.__version__)"查看版本号

2、登录hf

老版本：hf login

登录的过程中需要输入Token,可以通过如下地址查看自己的Token: https://huggingface.co/settings/tokens

如果没有Token，直接新建一个Token。

新版本登录: hf auth login

3、下载Echomimic模型

hf download BadToBest/EchoMimic --local-dir D:\models\EchoMimic

4、安装依赖

Pycharm中Terminal中通过：pip install -r requirements.txt安装所有依赖

5、功能开发

在原有Echomimic功能的基础上添加生成文案、以及把生成的文案转化为语音的功能。采用Gradio技术编排界面，其中获取文案的功能调用爱乐乐AI Agent生成口播文案。然后调用OpenAI的tts模型将文案转换为语音，结果放到Echomimic需要放置音频的地方。具体流程：文案主题中输入文案，点击获取文案按钮生成文案展示在文案内容中，然后点击生成语音按钮生成的语音在下方生成对应文案的语音。结果如下图所示：

这部分布局代码如下：

6、项目启动

配置启动参数：

启动：

D:\code\llmops-echomimic\venv\Scripts\python.exe D:\code\llmops-echomimic\webgui.py --server_name=127.0.0.1 --server_port=3000

启动成功：

启动成功后，把生成的方案转为语音，然后上传一张照片，点击生成Generate Radio就可以数字人，界面如下：

至此，数字人生成成功！

企业官网建设流程全解析

1、代码下载

2、ffmpeg下载与配置

3、下载pretrained_weights模型

3.1、通过git仓库下载

3.2、通过Hugging Face CLI下载

4、安装依赖

5、功能开发

6、项目启动

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

1、代码下载

2、ffmpeg下载与配置

3、下载pretrained_weights模型

3.1、 通过git仓库下载

3.2、 通过Hugging Face CLI下载

4、安装依赖

5、功能开发

6、项目启动

热门文章

文章分类

标签云

相关文章

如何3分钟搞定跨平台资源下载：这个网络嗅探工具让你轻松获取无水印视频和音频

智能工厂仓储规划怎么做？从物流动线到系统布局

一个定时器两个通道怎么玩？STM32 HAL库双通道输入捕获，同时测出PWM频率和占空比的保姆级教程

需要专业的网站建设服务？

3.1、通过git仓库下载

3.2、通过Hugging Face CLI下载