栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

spark 特征工程 -- 分箱 Binning

spark 特征工程 -- 分箱 Binning

文章大纲
  • 分箱操作简介
    • 目的
    • 分箱操作的种类
    • 分箱操作的有益效果
  • spark 分箱函数 简介
    • QuantileDiscretizer
    • Bucketizer
    • 两者区别
  • 参考文献


分箱操作简介 目的

分箱就是将连续变量离散化,合并成较少的状态

分箱操作的种类

1.等频分位数分箱 - 指定默认分箱个数后,将数据分箱到每个箱中并且每个箱中的数据量大致相等 - 自定义分箱个数,对具体某一列的分箱个数进行指定。以;间隔,每条规则以:间隔,例如a:3;b:10

2.等宽分箱 - 指定默认分箱个数后,按照列中的最小值到最大值之间,将数据N等分,数据分到每个箱中,和等频分箱相比每个箱中的数据量不固定 - 自定义分箱个数,对具体某一列的分箱个数进行指定。以;间隔,每条规则以:间隔,例如a:3;b:10

3.自定义区间 - 自定义区间分箱,目前仅对数据值列有效 - 连续特征自定义分箱区间,每条区间以;隔开。每列的区间类似[col:]

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/327186.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号