NLP入门_Python

NLP入门

RNN

2输入2输出
权值时间维度共享
可以双向RNN（相当于增加了从右向左阅读），多层RNN，并且输出尺寸不一定等于输出尺寸，也存在GAP，全连接层等。
先横向传导，后纵向传导
https://zhuanlan.zhihu.com/p/371849556

LSTM–long short term memory

3输入3输出
功能上类似resnet，利用浅层特征，有效解决梯度爆炸/梯度弥散的问题
为了有效利用浅层特征，增加了cell status，保存历史信息，参数总量从4个到了6个。
cell status ：遗忘不重要信息，保存过去的状态，新的输入，新的输出，参数量4->6。

https://zhuanlan.zhihu.com/p/55949716

GRU 的张量运算较少，因此它比 LSTM 的训练更快一下。很难去判定这两者到底谁更好，研究人员通常会两者都试一下，然后选择最合适的。

激活函数

nlp更常用tanh 激活函数，不用sigmoid，relu6不知道是不是因为文字信息也可以倒叙阅读（从左向右只是人类的习惯），tanh恰好为奇函数。

embeding

在分词之后（之前用过jieba中文分词，不知道现在更多用哪种工具）
通过embeding把文字变成向量
最简单可以通过语料库直接转化，不认识的单词可以用1代替，同时用0补齐padding
目前常用word2vec进行embeding，如果数据量足够大随机初始化效果应该也不错。

transformer

https://zhuanlan.zhihu.com/p/338817680
transformer输入词embeding以及位置embeding，与RNN不同，一次性输入了全局信息，所以可以更好的使用注意力机制（输入全局信息，并且权值时序不共享）
其中位置embeding，往往通过公式直接得到
没明白的地方
1）其中好像还用了layer normal ，不知道和cnn里面的是不是一样的，下次再看。
2）词embeding以及位置embeding直接相加，不是concat
估计是相加比较快把，unet里面用的concat速度比较慢一点

NLP入门

Python相关栏目本月热门文章