栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

语音信号处理及特征提取

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

语音信号处理及特征提取

1.信号处理基础

模拟信号->数字信号转化     步骤:采样和量化

 奈奎斯特定律 :采样频率大于信号中最大频率的二倍

 即在原始信号的一个周期中,至少要采样两个点,才能有效杜绝频率混叠问题。

信号进行离散傅里叶变换的条件: 时域离散且周期的信号

 DFT的性质:

1.对称性   

2. x(m)表示的是谱密度

   如果对一个幅度为A实正弦波进行N点DFT,则DFT之后,对应频率上的幅度M和A之间的关系为:

               M=A/(2/N)=(AN)/2

3.DFT的线性

4.时移性,对x(n)左移k个采样点,得到x1(n)=x(n-k)

为了提高频率轴的分辨率,可以通过延长时域的信号长度,通常对信号进行补0。在语音特征提取阶段,对于16k的采样频率的信号,一帧语音信号长度为400个采样点,为了进行512点的FFT,通过将400个点补0,得到512个采样点,由于对称性,最后只需前275个点。

2.Fbank和MFCC特征提取

Fbank和MFCC提取流程:

2.1预加重

     作用:提高信号高频部分的能量,因为高频信号衰减较快,高频信号包含很多对语音识别有利的特征。

     预加重滤波器(一阶高通滤波器),对于时域输入信号x(n),预加重之后的信号:

                                  y(n)=x(n)-a*x(n-1)     其实  0.9<=a<=1 

2.2分帧加窗

         分帧的过程,在时域上,即用一个窗函数和原始信号进行相乘

                              y[n]=w[n]x[n]                    w[n]为窗函数

         

  常见的窗函数:                  

2.3傅里叶变换

       将分帧后的语音帧由时域变换到频域,取DFT系数的模得到谱特征。

2.4梅尔滤波器组和对数操作

将线性频率转化为梅尔频率,梅尔频率和线性频率的关系:

 梅尔三角滤波器组:根据其实频率、中间频率和截止频率确定各滤波器组

 

梅尔滤波器组设计:

1.首先确定梅尔滤波器组个数P

2. 根据采样率fs,DFT点数N,滤波器个数P,在梅尔域上等间隔的产生每个滤波器的起始频率、中间频率和截止频率。 上一个滤波器的中间频率为下一个滤波器的起始频率

3.将梅尔域上每个三角滤波器的起始频率、中间频率和截止频率转换为线性频率域,并对DFT之后的谱特征进行滤波,得到P个滤波器组能量,进行log操作得到Fbank特征

MFCC特征在Fbank特征基础上继续进行IDFT变换等操作

频域信号可以分解成谱包络和谱细节

           X[m]=H[m]E[m]

log|X[m]|  梅尔普(Fbank)

log|H[m]|  谱包络

log|E[m]|  谱细节

4.

 

MFCC特征总结

      一般常用MFCC特征维是39维,包括

 MFCC特征一般用于GMM训练,Fbank特征一般用于DNN训练

 

 

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/1010172.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号