当使用Wikipedia Extractor(GitHub - attardi/wikiextractor: A tool for extracting plain text from Wikipedia dumps)工具处理所下载的wiki dump文件(https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2)时 当我执行python命令
python Wikiextractor.py -b 10M -o zh_extracted zhwiki-latest-pages-articles.xml.bz2
时 出现了
EOFError: Ran out of input
的错误。
经过百度和google 在wikidata - EOFError: Ran out of input while use Wikipedia Extractor as a parser for Wikipedia Data Dump File - Stack Overflow中找到了解决方法 可能时因为windows系统的stringIO问题导致 如果换用linux系统运行的话就不会有问题。



