DeEAR语音情感识别实操手册：支持WAV/MP3输入，输出结构化JSON情感维度评分-酒店常州论坛

DeEAR语音情感识别实操手册：支持WAV/MP3输入，输出结构化JSON情感维度评分

1. 快速了解DeEAR

DeEAR（Deep Emotional Expressiveness Recognition）是一个基于wav2vec2的深度语音情感分析系统。它能自动识别语音中的情感表达特征，并输出结构化的情感维度评分。

这个工具特别适合需要分析语音情感的场景，比如：

客服电话质量检测
心理咨询会话分析
语音助手情感交互优化
影视配音效果评估

2. 环境准备与快速部署

2.1 系统要求

DeEAR对运行环境要求不高，基本配置即可：

CPU：4核以上
内存：8GB以上
存储：10GB可用空间
操作系统：Linux（推荐Ubuntu 20.04+）

2.2 一键启动方法

最简单的方式是使用提供的启动脚本：

/root/DeEAR_Base/start.sh

启动后，你会看到类似这样的输出：

Running on local URL: http://0.0.0.0:7860

2.3 访问服务

服务启动后，可以通过以下方式访问：

本地访问：http://localhost:7860
远程访问：http://<你的服务器IP>:7860

3. 使用指南：从语音到情感分析

3.1 准备语音文件

DeEAR支持常见的音频格式：

WAV（推荐，无损质量）
MP3（兼容性好）

建议录音质量：

采样率：16kHz以上
单声道即可
时长：5-30秒效果最佳

3.2 上传并分析

操作步骤非常简单：

打开Web界面
点击"上传"按钮选择音频文件
等待分析完成（通常3-10秒）
查看结果

3.3 理解分析结果

系统会返回JSON格式的情感维度评分，例如：

{ "arousal": 0.82, "nature": 0.91, "prosody": 0.75, "summary": "高唤醒度，非常自然，韵律丰富" }

三个核心维度的含义：

维度	评分范围	低分特征	高分特征
唤醒度	0-1	平静、低沉	激动、兴奋
自然度	0-1	机械、不自然	自然、流畅
韵律	0-1	单调、平淡	抑扬顿挫

4. 实际应用案例

4.1 客服质检自动化

传统客服质检需要人工听录音，使用DeEAR可以：

自动标记情绪激动的通话
识别机械式应答
批量分析数百通电话

# 示例：批量分析客服录音 import os import json audio_dir = "customer_service_recordings/" results = [] for file in os.listdir(audio_dir): if file.endswith(".wav"): # 这里调用DeEAR API进行分析 emotion_result = analyze_with_deear(os.path.join(audio_dir, file)) results.append({ "file": file, "emotion": emotion_result }) # 保存分析结果 with open("emotion_report.json", "w") as f: json.dump(results, f, indent=2)

4.2 心理咨询辅助工具

心理咨询师可以用DeEAR：

量化患者的情绪变化
识别关键情绪转折点
长期跟踪情绪改善情况

5. 常见问题解答

Q：分析一段10分钟的语音需要多久？A：建议将长音频切分为30秒左右的片段。10分钟音频切分后分析约需1-2分钟。

Q：方言或口音会影响分析吗？A：DeEAR主要分析语音特征而非内容，因此对口音有较好鲁棒性，但极端方言可能影响准确性。

Q：如何提高分析准确率？A：确保录音清晰，减少背景噪音。情感表达越明显，分析结果越准确。

Q：能实时分析语音流吗？A：当前版本需要上传完整音频文件，实时分析功能在开发中。

6. 总结

DeEAR为语音情感分析提供了简单易用的解决方案，核心优势包括：

开箱即用，无需复杂配置
精准的三维情感量化
友好的JSON输出格式
支持常见音频格式

无论是单个文件分析还是批量处理，DeEAR都能帮助开发者快速获得专业的语音情感分析结果。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

企业官网建设流程全解析