这看起来像一个相当简单的基于关键字的分类任务。由于您使用的是Java,因此考虑使用的好的软件包是
Classifier4J ,
Weka 或 Lucene
Mahout 。
分类器4J
Classifier4J支持使用
朴素贝叶斯 和
向量空间 模型进行分类。
从使用朴素的贝叶斯分类器进行训练和评分的
源代码片段中
可以看出,该软件包相当易于使用。它还根据宽松的Apache软件许可进行分发。
威卡
Weka是一种非常流行的数据挖掘工具。使用它的优点是您可以轻松地尝试使用多种不同的机器学习模型将这些书归类为各个主题,包括
朴素贝叶斯 ,
决策树 ,
支持向量机 ,
k最近邻 ,
逻辑回归 ,甚至是
基于规则集的学习者
。
您可以在 此处
找到有关使用Weka进行文本分类的教程。
但是,Weka是根据GPL发行的。您将无法将其用于要分发的封闭源软件。但是,您仍然可以使用它来支持Web服务。
露西娜·马豪(Lucene Mahout)
Mahout设计用于对非常大的数据集进行机器学习。它基于Apache
Hadoop构建,并支持使用朴素贝叶斯进行监督分类。
您将
在此处
找到有关如何使用Mahout进行文本分类的教程。
与Classifier4J一样,Mahout在自由Apache软件许可下分发。



