栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

如何调整NLTK句子标记器

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

如何调整NLTK句子标记器

您需要向令牌生成器提供缩写列表,如下所示:

from nltk.tokenize.punkt import PunktSentenceTokenizer, PunktParameterspunkt_param = PunktParameters()punkt_param.abbrev_types = set(['dr', 'vs', 'mr', 'mrs', 'prof', 'inc'])sentence_splitter = PunktSentenceTokenizer(punkt_param)text = "is THAT what you mean, Mrs. Hussey?"sentences = sentence_splitter.tokenize(text)

现在的句子是:

['is THAT what you mean, Mrs. Hussey?']

更新:如果句子的最后一个单词附有撇号或引号(例如 Hussey?’
),则此方法不起作用。因此,一种快速而又肮脏的方法是在撇号和引号之前加上空格,并在句子结尾的符号(。!?)之后:

text = text.replace('?"', '? "').replace('!"', '! "').replace('."', '. "')


转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/641105.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号