python安装nltk库问题小结

在pycharm中输入

import nltk

nltk.download()

由于科学上网的原因连不到github，无法安装扩展包。

解决办法：

去B站找到up主大邓和他的python的视频：“nltk.download()下载不了怎么办？？”

找到评论区nltk_data.zip的资源，下载并解压（解压后约1.3GB）

（之后看视频教学即可，或进行以下操作）

找到位置C:UsersMinAppDataRoamingnltk_data

将解压后的文件放入这个位置

测试：

在pycharm中输入命令

from nltk.corpus import treebank
t = treebank.parsed_sents('wsj_0001.mrg')[0]
t.draw()

得到运行结果：

安装成功

试过的其他方法但未成功：

punkt是tokenizers里的一个工具，之前用nltk.download('punkt')，居然安装成功，可以运行简单的toknenize指令（把长句子拆成有"意义"的小部件），如

tokens = nltk.word_tokenize(sentence)

后来想故技重施，安装corpora，但由于科学上网的原因，无法安装

于是在cmd输入pip install corpora

显示pip“不是内部或外部命令，也不是可运行的程序或批处理文件”

在https://jingyan.baidu.com/article/a3f121e486ff87fc9052bbe8.html这篇帖子里找到解决办法

把工作目录切换到pip所在目录，并更改Path后，输入清华镜像命令

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple corpora

显示

在目录里查找corpora，发现C:UsersMinAppDataRoamingnltk_data下出现corpora的空文件夹，且C:UsersMinAppDataLocalProgramsPythonPython39Libsite-packages下出现corpora和Corpora-1.0-py3.9.egg-info两个文件

再次在pycharm中运行treebank的命令，报错：

此方法行不通，后多次尝试

发现想要正常使用nltk库，下载的文件必须在C:UsersMinAppDataRoamingnltk_data这个位置，而不能在site-packages下（不知什么原因经由pip install下载的文件都存储在site-packages下）

于是放弃在cmd中利用清华镜像下载nltk库的方法。

nltk corpora原下载网址：http://www.nltk.org/nltk_data/

测试treebank的代码来源：NLTK :: Natural Language Toolkit

参考书目：Natural Language Processing with Python--- Analyzing Text with the Natural Language Toolkit written by Steven Bird, Ewan Klein, and Edward Loper

http://nltk.org/book_1ed.

python安装nltk库问题小结

Python相关栏目本月热门文章