栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

BERT encoder-attention计算逻辑

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

BERT encoder-attention计算逻辑

encoder中最重要的莫过于attention的计算了,本章对照代码讲解一下计算逻辑,主要是python改成c++时候要注意一些shape,并且减少tanspose的使用,使用Intel mkl中的矩阵计算API,例如cblas,cblas_batch等等。

1.qkv合并------>Dense(input * qkv_weight + qkv_bias)------->split分开
分开后q=k=v shape为

(batch_size, seq_len, number_of_head, int(embedding_size / number_of_head))

2.此时的q,k,v并不能直接matmul,需要经过transpose,此时shape变成了

(batch_size, number_of_head, seq_len, feature_size)

3.对(2)产生的q与transpose(k)进行matmul,除以sqrt(embedding_size / number_of_head),生成中间变量的shape为

(batch_size, number_of_head, seq_len, seq_len)

4.对(3)的中间变量进行apply_mask,增加偏移量-10000,随后进行softmax。

5.(4)生成的值与value进行matmul,shape为

(batch_size, number_of_head, seq_len, feature_size)

完成attention操作

——————————————————————————————————————————
此部分为encoder中attention后续的计算
6.(5)中的output---->Dense---->layerNorm---->Dense---->gelu---->>Dense---->layerNorm

其中gelu使用erf高斯近似,可能会有一些误差。

def gelu(input_tensor):
	cdf = 0.5 * (1.0 + tf.erf(input_tensor / tf.sqrt(2.0)))
	return input_tesnsor*cdf

layerNorm原理就是 ,也就是hidden_size维做Normalization。

class LayerNorm(nn.Module):
    "Construct a layernorm module (See citation for details)."
    def __init__(self, features, eps=1e-6):
        super(LayerNorm, self).__init__()
        self.a_2 = nn.Parameter(torch.ones(features))
        self.b_2 = nn.Parameter(torch.zeros(features))
        self.eps = eps

    def forward(self, x):
        # mean(-1) 表示 mean(len(x)), 这里的-1就是最后一个维度,也就是hidden_size维
        mean = x.mean(-1, keepdim=True)
        std = x.std(-1, keepdim=True)
        return self.a_2 * (x - mean) / (std + self.eps) + self.b_2
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/283318.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号