栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

(python tf-idf textrank)实现文章关键词提取

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

(python tf-idf textrank)实现文章关键词提取

tf-idf(该文章该词词频/该文章总词数*(Log(文章总篇数/出现该词的文章数+1))

偏词频提取

# -*- coding:utf-8 -*-
import jieba.analyse
str_1 = "中央财政187.6亿保护草原生态,7月8日记者从财政部" 
      "农业司获悉:2018年,中央财政安排新一轮草原生态保护" 
      "补助奖励187.6亿元,支持实施禁牧面积12.06亿亩,草畜" 
      "平衡面积26.05亿亩,并对工作突出、成效显著地区给予奖励" 
      "。其中,禁牧补助、草畜平衡奖励要求各地根据补助奖励标准" 
      "和封顶保底额度及时足额发放;绩效评价奖励在可统筹支持落实" 
      "禁牧补助和草畜平衡奖励基础工作的同时,要求各地用于草原生" 
      "态保护建设和草牧业发展的比例不得低于70%。"
jieba.analyse.set_stop_words("3.txt")
key_word = " ".join(jieba.analyse.tfidf(str_1,topK=5,
           withWeight=False,allowPOS=('ns','n','vn','v'),withFlag=False))
print("keyword:",key_word)
tags=jieba.analyse.extract_tags(str_1,topK=5,withWeight=True,allowPOS=('ns','n','vn','v'))
for i in tags:
      print("值:%stt权值:%f"%(i[0],i[1]))

 textrank   ∝(指向其的单词数量*(各单词的rank值/各单词指向的单词数量))

 偏关联提取

# -*- coding:utf-8 -*-
import jieba.analyse
str_1 = "中央财政187.6亿保护草原生态,7月8日记者从财政部" 
      "农业司获悉:2018年,中央财政安排新一轮草原生态保护" 
      "补助奖励187.6亿元,支持实施禁牧面积12.06亿亩,草畜" 
      "平衡面积26.05亿亩,并对工作突出、成效显著地区给予奖励" 
      "。其中,禁牧补助、草畜平衡奖励要求各地根据补助奖励标准" 
      "和封顶保底额度及时足额发放;绩效评价奖励在可统筹支持落实" 
      "禁牧补助和草畜平衡奖励基础工作的同时,要求各地用于草原生" 
      "态保护建设和草牧业发展的比例不得低于70%。"
jieba.analyse.set_stop_words("3.txt")
key_word = " ".join(jieba.analyse.textrank(str_1,topK=5,
           withWeight=False,allowPOS=('ns','n','vn','v'),withFlag=False))
print("keyword:",key_word)

 

 

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/296195.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号