浅谈计算计工程设计中数据的挖掘特征以及相关算法

孙健

摘要：随着计算机科学技术快速发展，人们对于信息价值的认识逐渐提高。在此背景下，数据挖掘对于人们从海量数据信息流中提取价值信息有着十分重要的作用。而在KDD处理整个过程中，特征选择尤为关键，通常特征选择方式包含过滤、包装两种。本文就特征选择算法的搜索方向及策略、评价方法、停止标准对特征选择两种模式以及几种具有代表性的特征选择算法，对数据挖掘特征以及相关技术进行了一定程度的研究。

关键词：数据挖掘特征选择知识发现算法信息处理

中图分类号：TP3 文献标识码：A 文章编号：1672-3791（2018）11（a）-00-02

随着社会和经济的快速进步，计算机科学技术发展日新月异，当前，人们已然进入到大数据时代。当前，在海量的数据信息洪流中，如何提取、发现有价值的数据信息显得尤为关键，数据挖掘就是在这种背景下产生的。在数据挖掘中，特征选择是一个极为重要的研究方向，其能够从原始特征集合中选择最优的特征子集，进而提高数据质量以及挖掘效率。因此，对数据挖掘特征选择及其算法进行研究充满了必要性。

1 特征选择概述

所谓特征选择，其指的是在为特定应用不丢失数据原始价值的前提下选择最优的属性子集，去除不相关的或是冗余的过程。由于数据分析过程中数据特征千变万化，很多特征和数据挖掘任务不相关，通过特征选择能够有效提高数据质量，提高数据挖掘效率，并使得挖掘出的规则更容易被人们理解。在知识发现（KDD）过程中，特征选择极为重要，其为后期数据信息的预处理、挖掘以及后处理有着十分关键的意义[1]。

2 特征选择种类

特征选择种类主要分为包装（Wrapper）算法以及过滤（Filter）算法，其中Wrapper算法一般情况下和一种特定分类算法包装在一起，在初始化中其设定目标特征集和为空集，然后根据选定的特征评价标准在每一步中选择原始特征评价最优的特征，并把其增加到目标集合里。在后面的每一次迭代中，其把原始特征集余下的特征里的最优特征增加到目标集合里，一直到最终获取满意的目标特征集合。而Filter算法在初始化中将目标特征集合设定为整个特殊集，然后根据选定的特征评价标准在每一步中不断去除评价最坏的特征，一直到最终目标特征集合符合要求后结束。通常来讲，Wrapper算法分类精度相对较高，但是相比于Filter算法，其计算过程较长，因此不太适用于大规模的数据信息处理。而Filter算法则忽视了所选特征子集在分类算法上性能表现会造成分类性能降低[2]。

3 特征选择算法研究

随着数据信息规模急剧提升，当前，人们在进行数据挖掘时必须通过特征选择算法约减数据规模或者改变数据结构，进而提高数据挖掘效率或者提高分类能力。当前，特征选择算法已经广泛应用于网络安全信息挖掘、商业金融、生物医学以及文本识别等领域，并取得显著成果。一般情况下，特征选择算法在特征子集空间中进行搜索时，其主要考虑以下几点：搜索方向、搜索策略、评价方法、停止标准，以下笔者将就这4个方面对特征算法中比较有代表性的ABB算法、Relief算法以及LVW算法进行一定程度研究，并分析每种算法的特征[3]。

3.1 ABB算法

ABB算法在搜索方向上是采用后向搜到，即深度优化；在评价方法上采用一致性方法；搜索策略上其采用完全搜索，即在搜索中采用启发性信息；在停止标准上，当无法再找到符合一致性要求的更优属性子集时即停止算法。ABB算法在进行过程中，其不断推展搜索规模，同时，其又对搜索空间不断进行裁剪，由于其搜索策略采用完全搜索，一致性搜到单调性能够大幅度降低搜索属性子集的搜索范围。ABB算法虽然没有对全集当中的所有子集进行搜索，但是其能够保证没有评价的子集是不符合搜到要求的，因此，其属于完全搜索[4]。

3.2 Relief算法

Relief算法主要用来处理属性关联的问题，其能够以统计相关性为基础选择属性，并采样实例集合，计算所有属性的权重。Relief算法理念在于其将相关属性视为相邻的类型不同的实例间取值不同的属性。针对数据集中实例M，通过发现与其相近的类别相同的实力L和类别不同的实例N。在理想状态下，相关属性应与M里的取值和L里的取值相同，但是不同于N里面的取值。在算法实际运行中，计算单一属性在M、L、N之间的距离能够获取该属性的相关性。在随机选取的实例中，每一个属性的距离值分别累加到和条件属性维数一样的权重向量里。当权重值高于门限值的即为相关属性，其中，门限值的决定采用区间估计统计方法。随机抽样的尺寸可以发生变化，而且尺寸越大最后获取的结果可靠性越高。在处理离散和连续的数据时通常采用Relief算法，但是在解决冗余数据任务时Relief算法很难起到作用，因此Relief算法选择的特征子集并非为最优特征子集。后来随着Relief不断得到扩展，其当前能够解决多类型、不完整和有噪声的数据信息挖掘任务[5]。

3.3 LVW算法

LVW算法属于一种十分典型的包装特征选择方法，其没有固定的搜索方向，也没有专门的搜索策略；在评价方法上其采用正确性评价，也就是通过单一机器学习算法或者分类器对属性子集进行评价；在停止标准上，當预先设置的循环次数结束后即停止算法[3]。相比于过滤式特征选择，包装式特征选择会直接将最终采用的学习器的性能作为特征子集的评价标准，也就是说，包装式特征选择的最终目标在于为学习器选择最有利于其性能的特征子集。在具体运行过程中，LVW算法以拉斯维加斯方法框架为基础，假设数据集为E，特征集为B，那么该算法每次在特征集B里随机产生一个特征子集B'，之后采用交叉验证的方式，对学习器在特征子集B'的误差进行估计，当误差小于之前获取的最小误差时，或者当与之前获取的最小误差相当但是B'里所涵盖的特征数更少，那么将B'进行保留。因为LVW算法每次对子集B'进行评价时，都必须重新训练学习器，计算开销相对较大，所以其必须设置参数T对停止条件进行控制。不过如果特征数很多，即∣B∣较大，而且参数T也很大时，算法可能出现运行长时间不能停止的情况[6]。

4 结语

随着计算机科学技术的快速发展以及经济的快速进步，各行各业企业存储数据量急剧上升。在海量的数据背后隐藏着大量有价值的信息，通过发现、挖掘、分析这些数据能够为企业管理者做出精准决策提供强而有力的支持。而在知识发现中，特征选择极为关键，只有全面进行数据的抽取、转换、抽样、离散以及去除噪声，才能得到较好的特征选择效果。

参考文献

[1]赵宇，黄思明，陈锐.数据分类中的特征选择算法研究[J].中国管理科学，2013，21（6）：38-46.

[2]刘海燕.基于信息论的特征选择算法研究[D].复旦大学，2012.

[3]李红.数据挖掘中特征选择与聚类算法研究[D].大连理工大学，2010.

[4]毛勇，周晓波，夏铮，等.特征选择算法研究综述[J].模式识别与人工智能，2007，20（2）：211-218.

[5]彭佳红，沈岳，张林峰.数据挖掘中的特征选择及其算法研究[J].计算机工程与设计，2005（5）：1176-1178.

[6]张隆.基于信息论的特征选择和分类算法研究[D].西南农业大学，2005.

浅谈计算计工程设计中数据的挖掘特征以及相关算法

科技资讯相关栏目本月热门文章