接上一篇
P9 P10
ViT中的Tranformer编码器 n Tranformer 编码器由 multi-head self-attention ( MSA )和 MLP 块的层组成。 n 在每个块之前应用 Layernorm ( LN ),在每个块之后应用残差连接。 n MLP 包含具有 GELU 非线性的两全连接层。 Vision Transformer(ViT) n 模型变种: ViT 的配置基于 BERT 所使用的配置,如下表, BERT 采用了“ base” 和“ Large” 模型,并添加了较大的“ Huge” 模型。 n 经过大数据集的预训练后,性能也超过了当前 CNN 的一些 SOTA 结果 经过大数据集的预训练后,性能也超过了当前 CNN 的一些 SOTA 结果如上未完,下一篇继续……



