栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

(Python gensim+Word2Vec)实现文本相似度计算

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

(Python gensim+Word2Vec)实现文本相似度计算

# -*-encoding=utf-8-*-
import jieba
from gensim.models.word2vec import Word2Vec
# jieba分词返回列表
def jieba_cut(sent):
    sent1 = jieba.lcut(sent)
    return sent1
# gensim-Word2Vec模型训练
def word2vec1(sent1,sent2):
    sent1 = jieba_cut(sent1)
    sent2 = jieba_cut(sent2)
    sentences = [];sentences.append(sent1);sentences.append(sent2)
    model = Word2Vec(sentences, min_count=1)
    return model
# 输入需要分析的文本
def model1():
    sent1 = jieba_cut(input())
    sent2 = jieba_cut(input())
    return sent1,sent2
# 输出特定词在文本中的相似性比较
def sim(mo,sent1,sent2):
    for i in mo.wv.most_similar(sent1,sent2,topn=5):
        print(i[0],i[1])
    # print(mo.wv.most_similar(sent1,sent2,topn=5)
mo = word2vec1(input(),input())
yo = model1()
xo = mo.wv.n_similarity(yo[0],yo[1])
print('文本相似度:%f'%xo)
sim(mo,["互联网","信息"],["个人隐私"])
# 输出全文本词向量
print(mo.wv.vectors)
# 来自网络社交、直播、游戏、电商、金融、物流、交通、社区服务等多个应用领域运营主体的相关负责人现场签署了《深圳市APP个人信息保护自律承诺书》,向社会公开作出“不超范围采集信息,不强制索要用户授权,不利用大数据杀熟、不滥用人脸识别数据,不监听个人隐私”等承诺。
# 深圳市委网信办主要负责同志表示,深圳是互联网大市,互联网站和APP数量位居全国各大城市前列,强化个人信息保护尤为重要。头部企业要带头落实主体责任,做到“言必信、行必果”,把承诺落实在实际行动上,建立严格的个人信息保护合规制度体系,确保用户放心下载、放心使用,为全市广大APP运营企业发挥表率作用。网信部门将以开展党史学习教育“我为群众办实事”实践活动为契机,切实履行监管责任,汇聚各部门和社会各方力量,把群众急难愁盼的事抓实抓好抓到位。
# 不超范围采集信息,不强制索要用户授权,不利用大数据杀熟、不滥用人脸识别数据,不监听个人隐私”等承诺。
# 深圳是互联网大市,互联网站和APP数量位居全国各大城市前列,强化个人信息保护尤为重要。

待测文本未去除停用词

 敬请指正!

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/342029.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号