文本分类的特征选择和归约

这可能有点晚了，但是…

正如Bee指出的那样，您已经知道，如果在分类之前的阶段中已经丢失了信息，则将SVM用作分类器是浪费的。但是，文本分类的过程所需要的不仅是几个阶段，而且每个阶段都会对结果产生重大影响。因此，在研究更复杂的特征选择措施之前，有许多更简单的可能性，通常将需要更低的资源消耗。

在执行标记/表示为词袋格式之前，您是否要对文档进行预处理？只需删除停用词或标点符号即可大大提高准确性。

您是否考虑过改用词袋表示法，例如改为使用词对或n-gram？您可能会发现开始时有更多维度，但它们会进一步缩小并包含更多有用信息。

还值得注意的是，降维是
特征选择/特征提取。区别在于特征选择以单变量的方式减小维数，即，它按当前出现的条件逐个删除术语，而不会改变它们，而特征提取（我认为Ben
Allison指的是）是多变量的，结合了一个或多个单个项共同产生更高的正交项（希望）包含更多信息并减少特征空间。

关于文档使用频率，您只是在使用包含术语的文档的概率/百分比，还是在文档中使用术语密度？如果类别1只有10个重复项，并且每个都包含一个词，那么类别1实际上与文档相关联。但是，如果类别2仅包含10个文档，每个文档包含相同的术语，则每个术语都包含一百次，那么显然类别2与该术语的关系要比类别1高得多。如果不考虑术语密度，则会丢失此信息，并且您拥有的类别越少，损失对您的影响就越大。类似地，仅保留频率较高的术语并不总是明智的，因为它们可能实际上并未提供任何有用的信息。

另外，您如何索引数据？您是通过简单的布尔索引还是更复杂的度量（例如TF-
IDF）使用向量空间模型？考虑到场景中类别的数量较少，一种更复杂的度量将是有益的，因为它们可以将每个类别的术语重要性与整个数据集中的重要性联系起来。

就个人而言，我将首先尝试上述几种可能性，然后在需要进一步提高性能的情况下，考虑使用（或组合）复杂方程式来调整特征选择/提取。

额外

根据新信息，听起来您似乎走对了，对大多数数据集来说，84％+的准确性（F1或BEP-
基于多类问题的精度和召回率）通常被认为非常好。可能是您已经从数据中成功获取了所有信息丰富的功能，或者其中一些仍在修剪中。

话虽如此，“离群值”分析可以用作预测特定数据集的主动降维效果的好坏因素，它利用信息增益在外围特征中的下降来确定信息将有多大的可能性在功能选择过程中丢失。您可以将其用于原始数据和/或处理后的数据，以估算您应以多大程度地修剪功能（或视情况取消修剪）。可以在这里找到描述它的论文：

包含异常值计数信息的纸张

关于将TF-
IDF描述为索引方法，您将其作为特征权重度量是正确的，但我认为它主要用作索引过程的一部分（尽管它也可以用于降维）。这样做的理由是，某些措施更好地针对了特征选择/提取，而另一些措施则更适合专门用于文档向量（即索引数据）中的特征加权。这通常是由于基于每个类别确定的降维措施，而索引加权措施往往更面向文档，以提供更好的矢量表示。

关于LDA，LSI和moVMF，恐怕我对它们的经验不足，无法提供任何指导。不幸的是，我也没有使用土耳其语数据集或python语言。

文本分类的特征选择和归约

面试问答相关栏目本月热门文章