[具身智能-636]:什么是语音识别?语音识别的技术过程?语音于语音特征提取?什么环节实现时域到频域的转化?
2026/5/10 17:05:32 网站建设 项目流程

一、什么是语音识别

语音识别 ASR:把人说话的语音声波(时域音频),自动转换成文字的技术。本质:时域语音信号 → 机器可懂的语音特征 → 文本

不关心声音多好听,只关心说了什么内容


二、语音识别完整技术流程(标准 6 步)

按顺序:

  1. 音频采集麦克风 → ADC → 得到16k/8k 16bit 单声道 PCM 时域信号(就是 WAV/PCM 原始时域波形)=》 这是语音传感器的职责。剩下的都是“算法”的职责。

  2. 预预处理

    • 降噪、去直流偏移
    • 分帧:把连续语音切成20ms~30ms 一帧(语音是短时平稳的)
    • 加窗:汉明窗 / 汉宁窗,防止频谱泄露
  3. 时域 → 频域转换每一帧时域波形FFT 快速傅里叶变换这一步就是时域转频域的唯一环节 =》这是通用的时域信号转频域信号的过程。与具体的时域波形的特征无关!!!

  4. 语音特征提取从频域频谱里,提取人耳敏感、适合机器识别的特征输出:MFCC / 梅尔频谱 Mel-Spectrogram =》这是特征提取。

  5. 模型推理把特征送入ASR 模型(传统 GMM-HMM / 深度学习 CNN、RNN、Transformer)得到拼音 / 音素序列。=》根据特征进行解码成文字。

  6. 解码输出文字语言模型 + 词典 → 最终输出汉字文本


三、语音特征提取 是什么?

1. 为什么要特征提取?

原始时域 PCM 数据维度太高、冗余太大、噪声多,直接喂给模型效率极低、识别差。需要把时域波形,压缩提炼成关键语音特征

2. 常用语音特征

(1)功率谱 / 频谱

FFT 直接算出的频域能量分布

(2)梅尔频谱 Mel-Spectrogram(现在深度学习 ASR 标配)

模拟人耳听觉特性,对低频更敏感、高频压缩,最常用

(3)MFCC 梅尔倒谱系数

传统语音识别经典特征,工程落地用得极多

3. 特征提取本质

时域波形 → FFT 转频域 → 做滤波、压缩、映射 → 得到精简语音特征特征 = 去掉无用信息,保留语义相关的频域信息


四、哪个环节实现 时域 → 频域转化?

标准答案:

在「分帧加窗之后、特征提取第一步」通过 FFT 完成时域转频域。

时序定位:

音频采集 (时域) → 预处理分帧加窗 →FFT 变换(时域转频域)→ 特征提取 → 模型识别

  • 原始 WAV/PCM:全程时域
  • 不做 FFT:永远停留在时域,拿不到频率信息
  • FFT 是时域跨入频域的唯一关口

五、极简链路浓缩版

时域语音 (PCM/WAV)→ 分帧加窗→FFT 时域转频域→ 提取梅尔频谱 / MFCC 语音特征→ ASR 模型→ 输出文字


六、帮你固化关键认知

  1. 所有音频文件 WAV/MP3/OPUS 存的都是时域波形
  2. 频域不是录出来的,是FFT 算出来的
  3. 语音识别不能直接用时域波形,必须转频域再提特征;
  4. FFT = 时域 → 频域 的转换开关
  5. 语音特征提取,是在频域基础上进一步精炼出适合识别的向量

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询