栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

基于CTC的声学模型 和 其他声学模型的 loss function区别

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

基于CTC的声学模型 和 其他声学模型的 loss function区别

参考 https://zhuanlan.zhihu.com/p/33464788语音识别有时候输入长度远大于输出长度,这是因为语音信号的非平稳性决定的,我们只能做短时傅里叶变换,这就造成了一个句子会有很多帧,即很多时刻。而标签(输出词序列)中的一个词往往对应了好几帧。最后输出的长度会远小于输入的长度。CTC就是为了解决这个问题。CTC是怎么做的呢?如果不考虑标签的话,使用RNN,每帧语音都会有一个输出,比如输入是200帧,输出有20个词。这样就会得到200个输出序列,这200个输出序列如何与标签的20词计算loss的呢?首先,在多对少的映射中,我们很容易想到应该会有很多重复的词,把这些词去掉就行了,然后因为帧长很短,有些帧的输出没有任何意义,可能只包含静音。所以CTC增加了一个blank标签,也就是每帧softmax的时候增加一个类别(增加一个输出blank的类别)。最后CTC的映射规则就出来了,200->20,去blank+去重。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/364797.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号