自编码器(autoencoder, AE)是一类在半监督学习和非监督学习中使用的人工神经网络(Artificial Neural Networks, ANNs),其功能是通过将输入信息作为学习目标,对输入信息进行表征学习(representation learning) 。
自编码器包含编码器(encoder)和解码器(decoder)两部分 。
self-supervised learning用不需要标注的任务学习。
自编码器模型跟Cycle GAN很像,输入的高维度特征通过编码器还原成低维度的向量,向量再通过解码器转成新特征,输入输出越像越好。
Cycle GAN是用生成器将x转成y,再将y用生成器还原成x,比较输入和输出相似度。
Dimension reduction把高维度图片转成低维度。
因为图片变化都是有限的,找出有限的变化,可能只用几种类型就能表示图片。
模型会把有噪声的图片降噪:
将输入的特征转为code,code里包括了特征的各种信息。
将a的声音转成b的声音。
声音转换注意两点,声音转换的输入端长度与输出段长度不一定是一致相等的,甚至在很多时候不相等更加好。
第二点,声音转换都是基于图像形式的音频特征进行转换,也就是我们先将音频转化成为图像,然后对图像在进行端到端训练,所以我们输出的结果也是图像。 所以需要用Vocode的方式将输出的图像还原成为声音。
比较vector和codebook里vectors的相似度,找出最相似的解码:



