1分箱
分箱:指把待处理的数据按照一定的规则放进“箱子”中,采用某种方法对各个箱子中的数据处理
1)等深分箱法:每个箱子具有相同的记录数,这个记录数称作箱子的深度
2)等宽分箱:在整个数据值的区间上平均分割,使得每个箱子的区间相等,这个区间被叫做箱子的宽度
3)用户自定义分箱:根据自定义的规则分箱
举例:以下是客户收入属性的取值,请分箱处理:1000 800 1200 1800 1500 1500 2000 2300 2500 2800 3500 3000 3500 4000 4500 4800 5000
分箱之前应该排序:800 1000 1200 1500 1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000
1 等深分箱{箱子深度为4(能装4个记录)}
箱子1(800 1000 1200 1500 ) 箱子2(1500 1800 2000 2300 ) 箱子3(2800 3000 3500 4000) 箱子4(4000 4500 4800 5000)
2 等宽分箱{箱子的宽度为700}
箱子1(x>=800&&x<1500)(800 1000 1200 1500 1500) 箱子2(x>=1500&&x<2300)(1800 2000) 箱子3(x>=2300&&x<3000)(2300 2800 )
箱子4(x>=3000&&x<3700)(3000 3500) 箱子5(x>=3700&&x<4400)(4000 4000 )
箱子6(x>=4400&&x<5100)(4500 4800 5000)
平滑处理
分箱之后对每个箱子的数据进行平滑处理。
1)按照平均值:对一给箱子的数据求平均值,用均值代替箱子中的所有数据
2)按中值:
3)按边界值:对箱子中的每一个数据,使用离边界较小的边界值代替箱子中的所有数据
举例子,对等宽分箱的数据进行平滑处理
1)按照均值,箱子1(1200x5)箱子2(1900x2)箱子3(2550x2)箱子4(3250x2)箱子5(4000x2)箱子6(4766x3)
2)按照中值,箱子1(1100x5)箱子2(1900x2)箱子3(2550x2)箱子4(3250x2)箱子5(4000x2)箱子6(4800)
3)按照边界值,箱子1(800x5)箱子2(1500x2)箱子3(2300x2)箱子4(3700x2)箱子5(4000x2)箱子6(4500x3)
属性值变换(数据标准化):指属性值按照比例缩放。使之落入一个特定的区间,以消除数值型属性因大小不一而造成的挖掘效果的偏差。数据标准化的方法有四种:
1 最大-最小标准化,已知属性的原范围使[odd_min,odd_max]将其通过公式
x'=[(x-odd_min)/(odd_max-odd_min) ] *(new_max-new_min)+new_min
从而映射到[new_min,new_max]
属性范围变换为[new_min,new_max]
2 0-1标准化是最大-最小标准化的一种特殊形式,即new_min=0,new_max=1。
变换后的范围[0,1]
3 零-均值标准化,适用于数据符合正态分布的情况。
x'=(x-均值)/标准差
方差的算数平方根为标准差
4 小数定标标准化,通过移动小数点的位置,使属性值映射到[0,1]之间
变换后的属性范围[0,1]
举例:假定用于分析的数据为属性为age的数据,采集到的age的属性值为:13 15 16 16 19 20 20 21 22 22 25 25 25 30 33 33 35 35 35 35 36 40 45 47 52 70。用最大标准化将范围映射到[0.0,1.0]



