栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

KeyBERT进行中文关键词提取

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

KeyBERT进行中文关键词提取

原文链接

KeyBERTLeveraging BERT to extract important keywordshttps://maartengr.github.io/KeyBERT/index.html

        一种基于BERT的极简关键词提取方法。
        关键词提取是通过查找文档中与文档本身最相似的词来完成的。首先,用BERT提取文档嵌入,得到文档级表示。然后,提取N-gram单词/短语的单词嵌入。最后,使用余弦相似性来查找与文档最相似的单词/短语。
        那么,最相似的词可以被识别为最能描述整个文档的词。

使用BERT进行中文关键词提取 1.安装keyBert
pip install keybert
2.安装中文分词器-jieba
pip install jieba
3.提取中文关键词

3.1 文本转化成词共现矩阵

from sklearn.feature_extraction.text import CountVectorizer
import jieba

def tokenize_zh(text):
    words = jieba.lcut(text)
    return words

vectorizer = CountVectorizer(tokenizer=tokenize_zh)

3.1 提取关键词

from keybert import KeyBERT

kw_model = KeyBERT()
doc = "我爱北京天安门"
keywords = kw_model.extract_keywords(doc, vectorizer=vectorizer)

3.2 输出关键词

[('天安门', 0.7936), ('北京', 0.64), ('我', 0.5716), ('爱', 0.4095)]
 

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/839927.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号