语音信号处理及特征提取

1.信号处理基础
模拟信号->数字信号转化步骤：采样和量化

奈奎斯特定律：采样频率大于信号中最大频率的二倍

即在原始信号的一个周期中，至少要采样两个点，才能有效杜绝频率混叠问题。

信号进行离散傅里叶变换的条件：时域离散且周期的信号

DFT的性质：

1.对称性

2. x(m)表示的是谱密度

如果对一个幅度为A实正弦波进行N点DFT，则DFT之后，对应频率上的幅度M和A之间的关系为：

M=A/(2/N)=(AN)/2

3.DFT的线性

4.时移性，对x(n)左移k个采样点，得到x1(n)=x(n-k)

为了提高频率轴的分辨率，可以通过延长时域的信号长度，通常对信号进行补0。在语音特征提取阶段，对于16k的采样频率的信号，一帧语音信号长度为400个采样点，为了进行512点的FFT，通过将400个点补0，得到512个采样点，由于对称性，最后只需前275个点。

2.Fbank和MFCC特征提取
Fbank和MFCC提取流程：

2.1预加重

作用：提高信号高频部分的能量，因为高频信号衰减较快，高频信号包含很多对语音识别有利的特征。

预加重滤波器（一阶高通滤波器），对于时域输入信号x(n)，预加重之后的信号：

y(n)=x(n)-a*x(n-1) 其实 0.9<=a<=1

2.2分帧加窗

分帧的过程，在时域上，即用一个窗函数和原始信号进行相乘

y[n]=w[n]x[n] w[n]为窗函数

常见的窗函数：

2.3傅里叶变换

将分帧后的语音帧由时域变换到频域，取DFT系数的模得到谱特征。

2.4梅尔滤波器组和对数操作

将线性频率转化为梅尔频率，梅尔频率和线性频率的关系：

梅尔三角滤波器组：根据其实频率、中间频率和截止频率确定各滤波器组

梅尔滤波器组设计：

1.首先确定梅尔滤波器组个数P

2. 根据采样率fs，DFT点数N，滤波器个数P，在梅尔域上等间隔的产生每个滤波器的起始频率、中间频率和截止频率。上一个滤波器的中间频率为下一个滤波器的起始频率

3.将梅尔域上每个三角滤波器的起始频率、中间频率和截止频率转换为线性频率域，并对DFT之后的谱特征进行滤波，得到P个滤波器组能量，进行log操作得到Fbank特征

MFCC特征在Fbank特征基础上继续进行IDFT变换等操作

频域信号可以分解成谱包络和谱细节

X[m]=H[m]E[m]

log|X[m]| 梅尔普（Fbank）

log|H[m]| 谱包络

log|E[m]| 谱细节

4.

MFCC特征总结

一般常用MFCC特征维是39维，包括

MFCC特征一般用于GMM训练，Fbank特征一般用于DNN训练

语音信号处理及特征提取

Python相关栏目本月热门文章