实用工具小学数学练习字帖生成在线画板函数绘制拼音字母表在线词典黄历查询中国历史 Excel函数模拟请求 json格式化

栏目分类:

子分类:

名师互学网

名师互学网用户登录

快速导航

当前搜索

当前分类

前沿技术软件开发系统运维产品运营生活办公面试经验考试题库

实用工具

学习工具小学数学练习字帖生成在线画板函数绘制拼音字母表在线词典黄历查询亲戚关系计算安全期计算中国历史 Excel函数模拟请求 json格式化浏览器指纹

名师互学网 > IT > 面试经验 > 面试问答

为什么pos_tag（）如此缓慢，却可以避免？

面试问答更新时间：2026-05-21 13:56:06 发布时间：1661天前 IT归档最新发布模块sitemap 名妆网法律咨询聚返吧英语巴士网伯小乐网商动力

对于NLTK
3.1版，里面

nltk/tag/__init__.py

，

pos_tag

是这样定义的：

from nltk.tag.perceptron import PerceptronTaggerdef pos_tag(tokens, tagset=None):    tagger = PerceptronTagger()    return _pos_tag(tokens, tagset, tagger)

因此，每次对

pos_tag

first的调用实例化

PerceptronTagger

都会花费一些时间，因为它涉及加载pickle文件。

_pos_tag

只需调用

tagger.tag

when

tagset

是

None

。因此，您可以通过
一次加载文件并调用

tagger.tag

自己而不是调用来节省一些时间

pos_tag

：

from nltk.tag.perceptron import PerceptronTaggertagger = PerceptronTagger() def __remove_stop_words(self, tokenized_text, stop_words, tagger=tagger):    sentences_pos = tagger.tag(tokenized_text)      filtered_words = [word for (word, pos) in sentences_pos if pos not in stop_words and word not in stop_words]    return filtered_words

pos_tag_sents

使用与上述相同的技巧-实例化

PerceptronTagger

一次，然后调用

_pos_tag

多次。因此，使用上述代码，您将获得与重构和调用相当的性能提升

pos_tag_sents

。

另外，如果

stop_words

列表很长，则可以通过

stop_words

设置以下设置节省一些时间：

stop_words = set(stop_words)

因为检查集合中的成员资格（例如

pos not instop_words

）是一项

O(1)

（恒定时间）操作，而检查列表中的成员资格是一项

O(n)

操作（即，它需要的时间与列表的长度成比例地增加）。

转载请注明：文章转载自 www.mshxw.com

本文地址：https://www.mshxw.com/it/385607.html

上一篇为AspectJ运行JDK8

下一篇每行的Bin元素-NumPy的矢量化2D Bincount

面试问答相关栏目本月热门文章

热门相关搜索

路由器设置木托盘宝塔面板儿童python教程心情低落朋友圈 vim 双一流学科专升本我的学校日记学校西点培训学校汽修学校情书化妆学校塔沟武校异形模板西南大学排名最精辟人生短句 6步教你追回被骗的钱南昌大学排名清朝十二帝北京印刷学院排名北方工业大学排名北京航空航天大学排名首都经济贸易大学排名中国传媒大学排名首都师范大学排名中国地质大学(北京)排名北京信息科技大学排名中央民族大学排名北京舞蹈学院排名北京电影学院排名中国戏曲学院排名河北政法职业学院排名河北经贸大学排名天津中德应用技术大学排名天津医学高等专科学校排名天津美术学院排名天津音乐学院排名天津工业大学排名北京工业大学耿丹学院排名北京警察学院排名天津科技大学排名北京邮电大学(宏福校区)排名北京网络职业学院排名北京大学医学部排名河北科技大学排名河北地质大学排名河北体育学院排名

关于我们文章归档网站地图联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号：晋ICP备2021003244-6号