用于此类任务的最常见的无监督机器学习模型是潜在狄利克雷分配(LDA)。该模型会根据这些文档中的单词自动推断出文档集中的主题集合。在您的文档集中运行LDA会在搜索特定主题时将具有概率的单词分配给某些主题,然后您可以检索与该单词相关的概率最高的文档。
图像和音乐也有一些扩展,请参见http://cseweb.ucsd.edu/~dhu/docs/research_exam09.pdf。
LDA有几种语言的几种有效实现:
- 原始研究人员的许多实现
- http://mallet.cs.umass.edu/,用Java编写,并在SO上被其他人推荐
- PLDA:快速,并行的C ++实现



