2输入2输出
权值时间维度共享
可以双向RNN(相当于增加了从右向左阅读),多层RNN,并且输出尺寸不一定等于输出尺寸,也存在GAP,全连接层等。
先横向传导,后纵向传导
https://zhuanlan.zhihu.com/p/371849556
3输入3输出
功能上类似resnet,利用浅层特征,有效解决梯度爆炸/梯度弥散的问题
为了有效利用浅层特征,增加了cell status,保存历史信息,参数总量从4个到了6个。
cell status :遗忘不重要信息,保存过去的状态,新的输入,新的输出,参数量4->6。
https://zhuanlan.zhihu.com/p/55949716
GRU 的张量运算较少,因此它比 LSTM 的训练更快一下。很难去判定这两者到底谁更好,研究人员通常会两者都试一下,然后选择最合适的。
激活函数nlp更常用tanh 激活函数,不用sigmoid,relu6不知道是不是因为文字信息也可以倒叙阅读(从左向右只是人类的习惯),tanh恰好为奇函数。
在分词之后(之前用过jieba中文分词,不知道现在更多用哪种工具)
通过embeding把文字变成向量
最简单可以通过语料库直接转化,不认识的单词可以用1代替,同时用0补齐padding
目前常用word2vec进行embeding,如果数据量足够大随机初始化效果应该也不错。
https://zhuanlan.zhihu.com/p/338817680
transformer输入词embeding以及位置embeding,与RNN不同,一次性输入了全局信息,所以可以更好的使用注意力机制(输入全局信息,并且权值时序不共享)
其中位置embeding,往往通过公式直接得到
没明白的地方
1)其中好像还用了layer normal ,不知道和cnn里面的是不是一样的,下次再看。
2)词embeding以及位置embeding直接相加,不是concat
估计是相加比较快把,unet里面用的concat速度比较慢一点



