栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

SpaCy:如何加载Google新闻word2vec向量?

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

SpaCy:如何加载Google新闻word2vec向量?

对于spacy 1.x,请将Google新闻矢量加载到gensim中,并转换为新格式(.txt中的每一行都包含一个矢量:string,vec):

from gensim.models.word2vec import Word2Vecfrom gensim.models import KeyedVectorsmodel = KeyedVectors.load_word2vec_format('GoogleNews-vectors-negative300.bin', binary=True)model.wv.save_word2vec_format('googlenews.txt')

删除.txt的第一行:

tail -n +2 googlenews.txt > googlenews.new && mv -f googlenews.new googlenews.txt

将txt压缩为.bz2:

bzip2 googlenews.txt

创建与SpaCy兼容的二进制文件:

spacy.vocab.write_binary_vectors('googlenews.txt.bz2','googlenews.bin')

将googlenews.bin移至python环境的/lib/python/site-
packages/spacy/data/en_google-1.0.0/vocab/googlenews.bin。

然后加载单词向量:

import spacynlp = spacy.load('en',vectors='en_google')

或稍后再加载:

nlp.vocab.load_vectors_from_bin_loc('googlenews.bin')


转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/611893.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号