栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

数据挖掘笔记——数据集成

数据挖掘笔记——数据集成

对来自多个数据存储的数据进行集成。

1.实体识别问题

数据集成是将来自多个数据源的数据进行合并存放在一个一致的数据存储中。数据集成时涉及到实体识别问题,如何确保一个实体对应不同名字可以最终映射到同一个名字上?

2.冗余和相关分析

一个属性如果可以由另一个或者 另一组属性导出,那可能这个属性就是冗余的。

有些冗余可以被相关分析检测到,对于标称数据可以用卡方检测,对于数值属性可以用相关系数和协方差。

1)标称数据的卡方检验

 

 

2)数值数据的相关系数 

对于数值数据,计算属性A 和B的相关系数(Pearson积矩系数)估计两个属性的相关度。

 

 

3.元组重复问题

应当在元组级检测重复。对于给定的唯一数据实体,存在两个或者多个相同的元组。 

4.数据数值冲突的检测和处理

数据集成害涉及到数据值冲突的检测与处理。比如说对于现实世界的同一个实体,来自不同数据源的属性值可能会不同

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/311481.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号