栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

SpaCy括号标记化:(LRB,RRB)对未正确标记化

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

SpaCy括号标记化:(LRB,RRB)对未正确标记化

使用自定义标记器将

r'b)b'
规则(请参见此regex演示)添加到中
infixes
。regex与a匹配,该a
)
之前带有任何单词char(字母,数字,
_
和Python
3中的其他稀有字符),并带有此类型的char。

您可以进一步自定义此正则表达式,因此很大程度上取决于您要与之匹配的上下文

)

查看完整的Python演示:

import spacyimport refrom spacy.tokenizer import Tokenizerfrom spacy.util import compile_prefix_regex, compile_infix_regex, compile_suffix_regexnlp = spacy.load('en_core_web_sm')def custom_tokenizer(nlp):    infixes = tuple([r"b)b"]) +  nlp.Defaults.infixes    infix_re = spacy.util.compile_infix_regex(infixes)    prefix_re = compile_prefix_regex(nlp.Defaults.prefixes)    suffix_re = compile_suffix_regex(nlp.Defaults.suffixes)    return Tokenizer(nlp.vocab, prefix_search=prefix_re.search,          suffix_search=suffix_re.search,          infix_finditer=infix_re.finditer,          token_match=nlp.tokenizer.token_match,          rules=nlp.Defaults.tokenizer_exceptions)nlp.tokenizer = custom_tokenizer(nlp)doc = nlp("Indonesia (CNN)AirAsia ")print([(t.text, t.lemma_, t.pos_, t.tag_) for t in doc] )

输出:

[('Indonesia', 'Indonesia', 'PROPN', 'NNP'), ('(', '(', 'PUNCT', '-LRB-'), ('CNN', 'CNN', 'PROPN', 'NNP'), (')', ')', 'PUNCT', '-RRB-'), ('AirAsia', 'AirAsia', 'PROPN', 'NNP')]


转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/662253.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号