这是我的问题的答案。由于我一直在考虑使用两种情况,因此我认为最好覆盖两种情况,以防将来有人需要答案。如果您具有与movie_review语料库相同的设置-
多个标签以相同的方式标记,则您希望调用标签并包含训练数据,则可以使用此文件夹。
reader = CategorizedPlaintextCorpusReader('~/MainFolder/', r'.*.txt', cat_pattern=r'(w+)/*')我正在考虑的另一种方法是将所有内容放在一个文件夹中,并命名文件0_neg.txt,0_pos.txt,1_neg.txt等。您的阅读器代码应类似于:
reader = CategorizedPlaintextCorpusReader('~/MainFolder/', r'.*.txt', cat_pattern=r'd+_(w+).txt')我希望这会在将来对某人有所帮助。



