栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

NLP入门

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

NLP入门

RNN

2输入2输出
权值时间维度共享
可以双向RNN(相当于增加了从右向左阅读),多层RNN,并且输出尺寸不一定等于输出尺寸,也存在GAP,全连接层等。
先横向传导,后纵向传导
https://zhuanlan.zhihu.com/p/371849556

LSTM–long short term memory

3输入3输出
功能上类似resnet,利用浅层特征,有效解决梯度爆炸/梯度弥散的问题
为了有效利用浅层特征,增加了cell status,保存历史信息,参数总量从4个到了6个。
cell status :遗忘不重要信息,保存过去的状态,新的输入,新的输出,参数量4->6。

https://zhuanlan.zhihu.com/p/55949716

GRU 的张量运算较少,因此它比 LSTM 的训练更快一下。很难去判定这两者到底谁更好,研究人员通常会两者都试一下,然后选择最合适的。

激活函数

nlp更常用tanh 激活函数,不用sigmoid,relu6不知道是不是因为文字信息也可以倒叙阅读(从左向右只是人类的习惯),tanh恰好为奇函数。

embeding

在分词之后(之前用过jieba中文分词,不知道现在更多用哪种工具)
通过embeding把文字变成向量
最简单可以通过语料库直接转化,不认识的单词可以用1代替,同时用0补齐padding
目前常用word2vec进行embeding,如果数据量足够大随机初始化效果应该也不错。

transformer

https://zhuanlan.zhihu.com/p/338817680
transformer输入词embeding以及位置embeding,与RNN不同,一次性输入了全局信息,所以可以更好的使用注意力机制(输入全局信息,并且权值时序不共享)
其中位置embeding,往往通过公式直接得到
没明白的地方
1)其中好像还用了layer normal ,不知道和cnn里面的是不是一样的,下次再看。
2)词embeding以及位置embeding直接相加,不是concat
估计是相加比较快把,unet里面用的concat速度比较慢一点

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/313330.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号