栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

大数据分析与计算 汤羽 第五章习题答案

大数据分析与计算 汤羽 第五章习题答案

1. 数据预处理的主要任务有哪些?

参考答案:数据预处理的主要任务有:(1)数据清洗:填补缺失数据、消除噪声数据等。数据清洗的原理,就是通过分析“脏数据”的产生原因和存在形式,将“脏数据”转化为满足应用要求的数据,从而提高数据集的数据质量。(2)数据集成:将所用的数据统一存储在数据库、数据仓库或文件中形成一个完整的数据集,这一过程主要用于消除冗余数据。(3)数据转换:主要是对数据进行规格化操作,如将数据值限定在特定的范围之内。(4)数据归约:剔除无法刻画系统关键特征的数据属性,只保留部分能够描述关键特性的数据属性集合。

2. 数据清洗技术按照解决问题的需求可以分为哪几类?请详细阐述每一类问题。

参考答案:包括重复数据处理、消除噪音数据、缺失值处理等三类。

重估数据处理:数据可能存在数据输入错误的问题,如数据格式、拼写上存在的差异(例如,Apple公司、apple公司、苹果公司是同一实体的多条记录)。这些差异会导致不能正确地识别出标识同一实体的多条记录,且对于同一实体,在数据仓库中会有多种不同的表示形式,即同一实体对象可能对应多条记录。重复记录会导致错误的分析结果,因此有必要去除数据集中的重复记录,以提高分析的精度和速度。

消除噪音数据:噪声数据是一组测量数据中由随机错误或偏差引起的孤立数据,噪声数据往往使得数据超出了规定的数据域,对后续的数据分析结果造成不良的影响。

缺失值处理:现实世界中,存在大量的不完整数据。造成缺失数据的原因有很多,包括由于人工输入时的疏忽而漏掉,或者在填写调查问卷时,调查人不愿意公布一些信息等。在数据集中,若某记录的属性值被标记为空白、“Unknown”或“未知”时,则认为该记录存在缺失值,是不完整的数据。这些不完整、不准确的数据会影响数据分析结果的准确性,影响信息服务的质量。

3. 清洗数据缺失值的技术有哪些?请比较各种技术的优劣。

参考答案:缺失值清洗的方法,这些方法大致可分为两类:1.忽略不完整的数据值;2.填充缺失数据值的方法。第一类方法操作较为容易,往往通过删除含有不完整数据的属性或实例来去除不完整数据,但这种方法会损失很多数据信息。第二类方法是采用填充算法对不完整的数据进行填充,大多是通过分析其他完整部分的数据对缺失数据进行填充。

4. 数据规约技术有哪些?并详细阐述每种技术的特点。

参考答案:当数据集含有大量的数据属性时,数据的实例数量也非常庞大,这使得此类分析是不可行的。数据归约技术可以降低所需分析数据的数量,且仍接近于保持原数据的完整性。因此,在归约后的数据集上分析会更有效。数据归约的技术较多,主要包括维归约、属性选择和离散化技术。

维归约是通过减少数据集不相关属性的方法,降低数据集的维度,从而提高数据分析算法的效率。维归约方法主要的思路是属性构造,即通过合并已有的属性来构造新的属性,最常用的属性构造方法是根据领域专家的意见来合并已有的属性。

属性选择方法可以减少数据集中的不相关属性。不同于维归约中采用领域知识直接将属性去掉,属性选择通过分析所有可能的属性子集,从而找到最佳的属性子集。

离散化技术可以用于数据转换。比如,对数据集使用分类算法时,需要把数据转换成离散的形式;而对于关联规则发现算法,则需要变为二元变量的属性格式。因此,有时需要从连续型数据转换为离散型数据,而有时需要把连续型和离散型的数据转换为二元变量形式。另外,如果离散数据的值较大,或某些值出现的频率较低,则可以通过合并这些数值来达到对离散数据归约的目的。

5. 常用的数据清洗工具有哪些?请分析每一类工具的应用场景。

参考答案:专用的数据清洗工具往往应用于特定的业务领域、特定的数据清洗阶段或者特定的数据质量问题。这些工具往往依靠某些规则库来指导数据转换过程,或者通过与人的交互来完成数据转换过程。

目前存在较多的和地址相关的数据清洗工具。比如,IDCentric (FirstLogic),Pureintegrate,QuickAddress (QASSystems),ReUnion (PitneyBowes),NADIS,Trillium (TrilliumSoftware) 等都是这类工具。它们提供的技术包括抽取地址信息并将它们转换为符合标准的形式,从而验证城市、邮编、街道等各种信息是否正确。

此外,还有许多工具用于标示或去除重复记录。这些工具包括DataCleanser (EDD),Merge/PurgeLibrary (Sagent/QMSoftware),MatchlT (HelplTSystems),MasterMerge (PitneyBowes) 等。通常这些工具都要求目标数据源已经过一定的数据清洗,具备了较好的数据质量,不会影响记录匹配过程,因此,这些工具往往需要其他ETL工具的配合。大量的商业化工具支持数据的ETL过程 (Extraction,Transformation,Loading),比如CopyManager,DataStage,Extract,SagentSolutionPlatform,WarehouseAdministrator等许多工具,这些工具往往利用DBMS来统一管理所有的元数据信息,比如数据源信息、目标数据模式、映射关系、脚本程序等。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/583065.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号