您可以使用Gensim的内置方法show_topic从LDA模型中获取最常用的单词。
lda = models.LdaModel.load('lda.model')for i in range(0, lda.num_topics): with open('output_file.txt', 'w') as outfile: outfile.write('{}n'.format('Topic #' + str(i + 1) + ': ')) for word, prob in lda.show_topic(i, topn=20): outfile.write('{}n'.format(word.enpre('utf-8'))) outfile.write('n')这将写入具有类似于以下格式的文件:
Topic #69: petdentaltoothadoptanimalpuppyrescuedentistadoptionanimalshelterpetdentistryvetpawpuppatientmixfosterownerTopic #70: periscopedisneylanddisneysnapchatbrandonbritneyperiscopeperiscopereplaybritneyspearbuffaloexchangebritneyspearhttpsmeerkatblabperiscopekxcitonidisneylandlocation
您可能需要调整,也可能不需要,即生成前20个单词的列表,而不是将其输出到文本文件。
这篇文章中的答案很好地解释了如何使用原始文本创建单词cloud。
如何打印LDA主题模型和每个主题的词云



