栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

嵌入与表示学习

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

嵌入与表示学习

表示学习一般指模型自动从数据中抽取特征或者表示的方法。

嵌入embedding:某个物体X映射到另一个物体Y中的映射f叫做一个嵌入。

单射、保持结构。

机器学习中的embedding:狭义的embdding指把离散的数据投影到连续向量表达的过程。

Embedding适用情况一:用于第一层网络。

Embedding适用情况二:直接用于输出层。

    a:得到的embedding之后的数据接着用于其他网络训练。

    b:用于相似度匹配。

    c:用于数据可视化。

比较简单的方法是one-hot embedding。缺点是当某字段里不同值的数量很多时,特征空间会变得非常大,成为一个高维稀疏矩阵。在这种情况下,一般可以用PCA来减少维度。而且one hot encoding+PCA这种组合在实际中也非常有用。

用监督学习处理:例如将100维的向量乘上一个矩阵变成16维的向量,即为投影。

缺点:不保证训练出来的东西能带入到其他问题中。

用自监督学习处理:词嵌入

常用模型:word2Vec。word2Vec是一种把词转化成一个向量的方法。更严格来说它是一种用大量文本信息产生的一个向量空间,让每一个特定的词都能产生一个对应的向量。这样的嵌入往往满足可以用向量空间里的距离来衡量语义上的相关性

Word2vec是一种把词转化成一个向量的方法。它是一种用大量文本信息产生的一个向量空间,让每一个特定的词都能产生一个对应的向量.这样的嵌入往往满足可以用向量空间里的距离来衡量语义上的相关性。

产生Word2vec的编码的两个方法:CBOW、Skip-Gram。

用无监督学习处理:自编码器

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/1037554.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号