栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

特征选择简述

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

特征选择简述

目录

一、 特征选择的意义

二、特征选择的方法

1. 排序方法(Ranking methods)

2. 过滤方法(Filter approaches)

3.包装器方法(wrapper methods)

4.混合方法(Hybrid methods)

5.嵌入式方法(Embedded methods)


一、 特征选择的意义

       约简冗余,不相关,噪声和无信息数据,减少存储空间,降低时间复杂度,同时维度降低有助于缓解过拟合问题,即缓慢和过拟合这两个相互交织的问题都可以通过特征缩减来解决,其目标是最小化用于执行二元分类任务的维数。

二、特征选择的方法

1. 排序方法(Ranking methods)

       排序方法,也称为个体特征评估或特征加权技术,独立评估每个特征的信息量,并根据它们的相关性程度分配它们的权重。对单个特征计算信息增益、相关系数、卡方统计、信号-噪声统计等几种评价指标,以获得基于其个体评价的排序。然后,通过建立阈值截断,选择秩值最高的特征,获得有效的特征子集。

     缺点:只能消除不相关的特性,而不能消除冗余的特性。

     优点:这些单变量技术非常简单,但它们的性能可以与多变量方法竞争

2. 过滤方法(Filter approaches)

        过滤方法,也被称为分类器独立的方法。它独立于任何归纳算法,基于距离、信息、依赖性和一致性四种不同的评价标准进行评价,利用数据的内在特征对特征进行评价和排序,根据训练数据的共同特征来选择合适的特征,而不涉及任何特定的学习器。优点是速度快、计算简单、经济经济,更适合于解决高维数据集问题。最流行的为特征相关性进行评分的标准之一是皮尔逊相关系数,计算公式为:

        其中,为第i个特征,푌为类标签,푐표푣()为协方差,푣푎푟()为方差。该准则只能检测变量与目标之间的线性依赖关系。

        信息理论排序标准,如将互信息(MI)作为两个变量之间依赖性的度量,X和Y之间的MI值为:

         其中,퐻(푌)为香农熵,퐻(푌|푋)是输出푌的条件熵,如果Y和X是独立的,那么MI值为零,否则MI大于零。

3.包装器方法(wrapper methods)

        通过迭代搜索整个特征空间,生成候选特征子集,将优化一个特定分类器的性能度量,这种性能度量或目标函数取决于问题的类型。例如,回归评价标准可以是r-平方,而分类评价标准可以是准确性、查全率、精确度、f1-分数等。用于包装器特征选择的常用搜索算法包括分支和绑定方法和几种元启发式算法。除了启发式搜索算法外,一些包装器特征选择方法还基于顺序选择算法,如顺序前向选择(SFS)、顺序后向选择(SBS)、顺序前向浮动选择(SFFS)和顺序后向浮动选择(SBFS)。这些方法迭代地添加或删除特征,直到满足终止标准。

        缺点:计算复杂度随着特征空间的增长而增加。

       优点:由于特征选择针对特定的学习算法进行优化,不包含关于特定结构的分类或回归函数的知识,因此可以与任何学习机器结合。

4.混合方法(Hybrid methods)

        在单个上下文中同时利用过滤器方法和包装器方法,以提高FS算法。

5.嵌入式方法(Embedded methods)

       指那些直接将特征选择作为分类算法优化目标的方法,寻求在学习算法中加入特征选择能力。计算成本较低,也不太容易发生过拟合。如使用分类器的权重进行特征排序,权重定义为

         其中和휎푗为(+)和(-)类样本的平均值和标准差。较大的正푤푗值表示与类(+)有很强的相关性,而较大的负푤푗值表示与类(-)有很强的相关性。

        一些嵌入式方法涉及到改变分类器的目标函数,以学习使用模型权重向量的特征排序。例如,修改支持向量机(SVM)的成本函数,以执行递归特征消除(RFE)的方法被称为SVM-RFE方法,类似的技术已经被开发出来用于多层神经网络

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/769927.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号