什么是语音识别?

[拼音]：yuyin shibie

[外文]：Speech recognition

用模式识别方法提取语音信号特征并加以分类的技术。比语音识别更进一步的技术是语音理解，它在语音识别的基础上还应用语音学、句法和语义等有关知识,是人工智能的研究领域。语音识别按复杂程度的不同可分为孤立单词（或单字）识别和连续语音识别。有时把说话者识别也归入语音识别的范围。

现代语音识别的主要过程是：语音信号经传声器转换为电信号，经过取样和量化转换为数字信号，输入计算机中进行识别。计算机识别过程包括特征抽取和分类判别。

数字语音信号数据量大，不利于直接进行分类判别，需要先提取有代表性的主要特征。常用的有两种方法。

（1）线性预测系数法：取样后的语音信号是一个时间序列，可以用一定阶次的参数模型来表示，常用的是自回归模型,并用这一模型的系数组成特征向量。

（2）功率谱法:用一组不同通带的滤波器抽取一些频段的功率谱值，作为特征量。

分类判别主要采用模板匹配法，即在计算机中存入一组已知类别的标准语音的特征向量，称为样板。未知语音输入经特征抽取后，求它同各样板间的距离。同未知语音距离最小的样板所对应的类别就是识别结果。

句法模式识别方法（见结构模式识别）也可用于语音识别，特别是连续语音的识别和分析。这样就可用形式语言的理论来分析单词或句子的结构关系。

语音识别系统的性能指标主要有四项。

（1）词汇表范围：这是指机器能识别的单词或词组的范围，如不作任何限制，则可认为词汇表范围是无限的。

（2）说话人限制：是仅能识别指定发话者的语音，还是对任何发话人的语音都能识别。

（3）训练要求：使用前要不要训练，即是否让机器先“听”一下给定的语音，以及训练次数的多少。

（4）正确识别率：平均正确识别的百分数，它与前面三个指标有关。

不同人讲同一词或单字时，或同一人在不同条件下讲同一词或单字时，语音信号有很大差异，而某些不同的字或词的语音信号又很相似，因而机器很难像人一样对不同词有很高的分辨能力。此外，连续语音的字与字之间存在混叠，字在不同位置又有音调的变化，一个字或词的起点和终点也很难分清，这都给语音识别带来困难。

语音识别的应用很广泛，如音控自动电话、产品检验、邮件自动分类、语音数控机床、自动排版、说话者识别、仓库货场登记、语音打字、飞行管理、航天员演习、办公室自动化和家务机器人等。