栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

大数据处理的应用(大数据处理包括)

大数据处理的应用(大数据处理包括)

1分箱

分箱:指把待处理的数据按照一定的规则放进“箱子”中,采用某种方法对各个箱子中的数据处理

1)等深分箱法:每个箱子具有相同的记录数,这个记录数称作箱子的深度

2)等宽分箱:在整个数据值的区间上平均分割,使得每个箱子的区间相等,这个区间被叫做箱子的宽度

3)用户自定义分箱:根据自定义的规则分箱

举例:以下是客户收入属性的取值,请分箱处理:1000 800 1200 1800 1500 1500 2000 2300 2500 2800 3500 3000 3500 4000 4500 4800 5000

分箱之前应该排序:800 1000 1200 1500 1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000

1 等深分箱{箱子深度为4(能装4个记录)}

箱子1(800 1000 1200 1500 ) 箱子2(1500 1800 2000 2300 ) 箱子3(2800 3000 3500 4000) 箱子4(4000 4500 4800 5000)

2 等宽分箱{箱子的宽度为700}

箱子1(x>=800&&x<1500)(800 1000 1200 1500 1500) 箱子2(x>=1500&&x<2300)(1800 2000) 箱子3(x>=2300&&x<3000)(2300 2800 )

箱子4(x>=3000&&x<3700)(3000 3500) 箱子5(x>=3700&&x<4400)(4000 4000 )

箱子6(x>=4400&&x<5100)(4500 4800 5000)


平滑处理

分箱之后对每个箱子的数据进行平滑处理。

1)按照平均值:对一给箱子的数据求平均值,用均值代替箱子中的所有数据

2)按中值:

3)按边界值:对箱子中的每一个数据,使用离边界较小的边界值代替箱子中的所有数据

举例子,对等宽分箱的数据进行平滑处理

1)按照均值,箱子1(1200x5)箱子2(1900x2)箱子3(2550x2)箱子4(3250x2)箱子5(4000x2)箱子6(4766x3)

2)按照中值,箱子1(1100x5)箱子2(1900x2)箱子3(2550x2)箱子4(3250x2)箱子5(4000x2)箱子6(4800)

3)按照边界值,箱子1(800x5)箱子2(1500x2)箱子3(2300x2)箱子4(3700x2)箱子5(4000x2)箱子6(4500x3)


属性值变换(数据标准化):指属性值按照比例缩放。使之落入一个特定的区间,以消除数值型属性因大小不一而造成的挖掘效果的偏差。数据标准化的方法有四种:

1 最大-最小标准化,已知属性的原范围使[odd_min,odd_max]将其通过公式

x'=[(x-odd_min)/(odd_max-odd_min) ] *(new_max-new_min)+new_min

从而映射到[new_min,new_max]

属性范围变换为[new_min,new_max]

2 0-1标准化是最大-最小标准化的一种特殊形式,即new_min=0,new_max=1。

变换后的范围[0,1]

 

3 零-均值标准化,适用于数据符合正态分布的情况。

x'=(x-均值)/标准差

方差的算数平方根为标准差

4 小数定标标准化,通过移动小数点的位置,使属性值映射到[0,1]之间

变换后的属性范围[0,1]

举例:假定用于分析的数据为属性为age的数据,采集到的age的属性值为:13 15  16 16 19 20 20 21 22 22 25 25 25 30  33 33 35 35 35 35 36 40 45 47 52 70。用最大标准化将范围映射到[0.0,1.0]

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/771613.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号