栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

DataMining 第三章数据预处理笔记

DataMining 第三章数据预处理笔记

一、为什么进行数据预处理 ?

定义数据质量的三大要素是:accuracy, completeness, and consistency.

数据的质量取决于你要用数据做什么用途,不同的用途会对数据质量评价的标准不同。

记录数据的及时性也会影响到数据的质量。假设在一家商业公司,月末进行销售额统计但是各个部门经理没有及时上报自己部门的销售额,那么在一段时间内这个数据是不精确的。

数据的可信度以及可解释性(能不能让人理解)也很重要,是影响数据质量的其他两个因素。

二、数据预处理的主要任务

1.数据清理是日常的工作。这一步主要是做弥补缺失数值,平滑噪声数据,识别或者移除离群点,检查数据不一致性。

2.数据集成。因为在集成 不同数据库中的内容时, 你会发现有很多重复的数据,或者指向同一个内容的数据,那么在这一步需要对数据进行集成,删除重复数据。

3.数据归约。数据归约的目的是为了减小数据集的体积,但是同时能够达到和未缩减数据模型一样的效果。他包括了维归约和数值归约。

维归约:使用数据编码的方案让原始数据得到简化或者压缩表示。

数值归约:使用参数模型或者非参数模型用较小的表示取代数据。

规范化,数据离散化和概念分层产生都是某种形式的数据变换(data transformation)

数据预处理的过程步骤分类不是互斥的。比如说数据清理是一种数据清理形式也是一种数据归约。

 

 

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/304559.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号