- 分箱操作简介
-
- 目的
- 分箱操作的种类
- 分箱操作的有益效果
- spark 分箱函数 简介
-
- QuantileDiscretizer
- Bucketizer
- 两者区别
- 参考文献
分箱操作简介 目的
分箱就是将连续变量离散化,合并成较少的状态
分箱操作的种类1.等频分位数分箱 - 指定默认分箱个数后,将数据分箱到每个箱中并且每个箱中的数据量大致相等 - 自定义分箱个数,对具体某一列的分箱个数进行指定。以;间隔,每条规则以:间隔,例如a:3;b:10
2.等宽分箱 - 指定默认分箱个数后,按照列中的最小值到最大值之间,将数据N等分,数据分到每个箱中,和等频分箱相比每个箱中的数据量不固定 - 自定义分箱个数,对具体某一列的分箱个数进行指定。以;间隔,每条规则以:间隔,例如a:3;b:10
3.自定义区间 - 自定义区间分箱,目前仅对数据值列有效 - 连续特征自定义分箱区间,每条区间以;隔开。每列的区间类似[col:]



