表示学习一般指模型自动从数据中抽取特征或者表示的方法。
嵌入embedding:某个物体X映射到另一个物体Y中的映射f叫做一个嵌入。
单射、保持结构。
机器学习中的embedding:狭义的embdding指把离散的数据投影到连续向量表达的过程。
Embedding适用情况一:用于第一层网络。
Embedding适用情况二:直接用于输出层。
a:得到的embedding之后的数据接着用于其他网络训练。
b:用于相似度匹配。
c:用于数据可视化。
比较简单的方法是one-hot embedding。缺点是当某字段里不同值的数量很多时,特征空间会变得非常大,成为一个高维稀疏矩阵。在这种情况下,一般可以用PCA来减少维度。而且one hot encoding+PCA这种组合在实际中也非常有用。
用监督学习处理:例如将100维的向量乘上一个矩阵变成16维的向量,即为投影。
缺点:不保证训练出来的东西能带入到其他问题中。
用自监督学习处理:词嵌入
常用模型:word2Vec。word2Vec是一种把词转化成一个向量的方法。更严格来说它是一种用大量文本信息产生的一个向量空间,让每一个特定的词都能产生一个对应的向量。这样的嵌入往往满足可以用向量空间里的距离来衡量语义上的相关性
Word2vec是一种把词转化成一个向量的方法。它是一种用大量文本信息产生的一个向量空间,让每一个特定的词都能产生一个对应的向量.这样的嵌入往往满足可以用向量空间里的距离来衡量语义上的相关性。
产生Word2vec的编码的两个方法:CBOW、Skip-Gram。
用无监督学习处理:自编码器



