对来自多个数据存储的数据进行集成。
1.实体识别问题
数据集成是将来自多个数据源的数据进行合并存放在一个一致的数据存储中。数据集成时涉及到实体识别问题,如何确保一个实体对应不同名字可以最终映射到同一个名字上?
2.冗余和相关分析
一个属性如果可以由另一个或者 另一组属性导出,那可能这个属性就是冗余的。
有些冗余可以被相关分析检测到,对于标称数据可以用卡方检测,对于数值属性可以用相关系数和协方差。
1)标称数据的卡方检验
2)数值数据的相关系数
对于数值数据,计算属性A 和B的相关系数(Pearson积矩系数)估计两个属性的相关度。
3.元组重复问题
应当在元组级检测重复。对于给定的唯一数据实体,存在两个或者多个相同的元组。
4.数据数值冲突的检测和处理
数据集成害涉及到数据值冲突的检测与处理。比如说对于现实世界的同一个实体,来自不同数据源的属性值可能会不同



