栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

DataWhale 9月份学习笔记八 之Transformers解决序列标注任务

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

DataWhale 9月份学习笔记八 之Transformers解决序列标注任务

DataWhale 9月份学习笔记七 之Transformers解决序列标注任务 序列标注 token级的分类问题 1.定义

序列标注 通常也可以看作是token级别的分类问题 对每一个token进行分类。
最常见的token级别分类任务:

NER (Named-entity recognition 名词-实体识别) 分辨出文本中的名词和实体 (person人名,
organization组织机构名, location地点名…).POS (Part-of-speech tagging词性标注) 根据语法对token进行词性标注 (noun名词, verb动词,
adjective形容词…)Chunk (Chunking短语组块) 将同一个短语的tokens组块放在一起。 2.对齐
tokenized_input tokenizer(example[ tokens ], is_split_into_words True)
tokens tokenizer.convert_ids_to_tokens(tokenized_input[ input_ids ])
print(tokens)

结果
由于标注数据通常是在word级别进行标注的 既然word还会被切分成subtokens 那么意味着我们还需要对标注数据进行subtokens的对齐。同时 由于预训练模型输入格式的要求 往往还需要加上一些特殊符号比如 [CLS] 和 [SEP]。

len(example[f {task}_tags ]), len(tokenized_input[ input_ids ])

结果

(31, 39)

tokenizer有一个 word_ids方法可以帮助我们解决这个问题。

print(tokenized_input.word_ids())

结果

[None, 0, 1, 1, 2, 3, 4, 5, 6, 7, 7, 8, 9, 10, 11, 11, 11, 12, 13, 14, 15, 16, 17, 18, 18, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, None]

可以看到 word_ids将每一个subtokens位置都对应了一个word的下标。比如第1个位置对应第0个word 然后第2、3个位置对应第1个word。特殊字符对应了None。有了这个list 我们就能将subtokens和words还有标注的labels对齐啦。

word_ids tokenized_input.word_ids()
aligned_labels [-100 if i is None else example[f {task}_tags ][i] for i in word_ids]
print(len(aligned_labels), len(tokenized_input[ input_ids ]))

结果

39 39

我们通常将特殊字符的label设置为-100 在模型中-100通常会被忽略掉不计算loss。

我们有两种对齐label的方式

多个subtokens对齐一个word 对齐一个label多个subtokens的第一个subtoken对齐word 对齐一个label 其他subtokens直接赋予-100.
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/268018.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号