一、数据
1、数据的类型
描述数据对象的属性可以具有不同的类型(定量或者定性)。针对于此,我们需要选择不同的工具或者技术。
数据集:数据集可以看作数据对象的集合
数据集的类型:
记录数据、基于图形的数据和有序的数据
数据集的一般特性:
维度:数据集中对象具有的属性数目,分析高纬度数据有时会陷入”维灾难“,数据预处理的一个重要动机就是减少维度,称为”维归约“。
分布(稀疏性):可以看作对数据空间各个区域中对象集中程度的描述,稀疏性的优点为非零值才需要存储和处理,可以节省大量计算和存储空间。
分辨率:在不同分辨率下数据的性质不通过,如果分辨率太高,模式可能看不出或掩埋在噪声中,如果分辨率太低,模式可能不出现。
数据对象:可以是记录、点、向量……用一组刻画对象特性的属性描述。
数据属性:用以描述对象的基本特性(别称也为变量、特性、字段、特征、维度)
基于记录的数据集在平展文件或者关系数据库系统中是最常见的。
属性:
记录数据、基于图形的数据和有序的数据
数据集的一般特性:
维度:数据集中对象具有的属性数目,分析高纬度数据有时会陷入”维灾难“,数据预处理的一个重要动机就是减少维度,称为”维归约“。
分布(稀疏性):可以看作对数据空间各个区域中对象集中程度的描述,稀疏性的优点为非零值才需要存储和处理,可以节省大量计算和存储空间。
分辨率:在不同分辨率下数据的性质不通过,如果分辨率太高,模式可能看不出或掩埋在噪声中,如果分辨率太低,模式可能不出现。
数据对象:可以是记录、点、向量……用一组刻画对象特性的属性描述。
数据属性:用以描述对象的基本特性(别称也为变量、特性、字段、特征、维度)
基于记录的数据集在平展文件或者关系数据库系统中是最常见的。
属性:
维度:数据集中对象具有的属性数目,分析高纬度数据有时会陷入”维灾难“,数据预处理的一个重要动机就是减少维度,称为”维归约“。
分布(稀疏性):可以看作对数据空间各个区域中对象集中程度的描述,稀疏性的优点为非零值才需要存储和处理,可以节省大量计算和存储空间。
分辨率:在不同分辨率下数据的性质不通过,如果分辨率太高,模式可能看不出或掩埋在噪声中,如果分辨率太低,模式可能不出现。
数据属性:用以描述对象的基本特性(别称也为变量、特性、字段、特征、维度)
基于记录的数据集在平展文件或者关系数据库系统中是最常见的。
属性:
基于记录的数据集在平展文件或者关系数据库系统中是最常见的。
定义:对象的性质或特征,它因对象而异,或随时间变化。
测量标度:将数值或者符号值与对象的属性相关联的规则(函数)例如将对象属性的物理值映射到数值或者符号值。
属性类型:标称、序数、区间、比率
分类或定性:(不具有数的大部分性质)
标称:用于区分对象(ID、性别……=,!=)
叙述:确定对象的序(成绩、街道号码……<,>)
数值或定量:(具有数的大部分性质)
区间:(日历日期、摄氏度……+,-)
比率:(年龄、质量……*,/)
非对称的二元性质:只有非零值才重要的二元属性。(学生选课)
记录数据:
定义:许多数据挖掘任务都假定数据集是记录(数据对象)的汇集,每个记录包含固定的数据字段(属性)集。
事务数据:是一种特殊类型的记录数据,其中每个记录(购物)涉及一系列的项(商品)。(购物篮数据)
数据矩阵:如果一个数据集族中的所有数据对象都具有相同的数值属性集,则数据对象可以看作多维空间中的点(向量),其中每个维代表对象的一个不同属性。(模式矩阵)
稀疏数据矩阵:是数据矩阵的一种特殊情况,其中属性的类型相同并且是非对称的,即只有非零值才是最重要的。文档集合又可称为文档-词矩阵。(每个分量的值对于词在文档中出现的次数)
基于图的数据:
带有对象之间联系的数据:对象之间的联系通常携带重要的信息。数据对象被映射为图的结点,而对象之间的联系用链路和方向,权值等链属性表示。(网页)
带有对象之间联系的数据:对象之间的联系通常携带重要的信息。数据对象被映射为图的结点,而对象之间的联系用链路和方向,权值等链属性表示。(网页)
时间序列数据:每个记录包含一个与之相关联的时间,时间自相关。(万圣节前夕糖果)
序列数据:是一个数据的集合,是各个实体的序列,除没有时间戳外,与时序数据非常相似。
空间和时空数据:由不同位置的时间序列组成。
二、数据的质量
(1)数据质量问题的检测和纠正(数据清理)
(2)使用可以容忍低质量数据的算法
1、测量误差和数据收集错误
测量误差:指测量过程中产生的问题,测量值与真实值之间的误差。由于仪器、实验条件、环境等因素导致。
数据收集误差:指遗漏数据对象或者属性值、或者不恰当的包含了其他数据对象等错误。
错误是可以避免的,误差不可避免。
2、噪声和伪像
噪声:噪声是测量误差的随机部分,可以通过信号或图像处理技术降低噪声。
伪像:数据确定性失真常称作伪像。
3、精度、偏置、准确率
精度:同一个量的重复测量值之间的接近程度。
偏置:测量值与被测量值之间的系统的变化。
准确率:被测量的测量值与实际值之间的接近度。
(1)数据质量问题的检测和纠正(数据清理)
(2)使用可以容忍低质量数据的算法
测量误差:指测量过程中产生的问题,测量值与真实值之间的误差。由于仪器、实验条件、环境等因素导致。
数据收集误差:指遗漏数据对象或者属性值、或者不恰当的包含了其他数据对象等错误。
错误是可以避免的,误差不可避免。
2、噪声和伪像
噪声:噪声是测量误差的随机部分,可以通过信号或图像处理技术降低噪声。
伪像:数据确定性失真常称作伪像。
3、精度、偏置、准确率
精度:同一个量的重复测量值之间的接近程度。
偏置:测量值与被测量值之间的系统的变化。
准确率:被测量的测量值与实际值之间的接近度。
错误是可以避免的,误差不可避免。
2、噪声和伪像
噪声:噪声是测量误差的随机部分,可以通过信号或图像处理技术降低噪声。
伪像:数据确定性失真常称作伪像。
3、精度、偏置、准确率
精度:同一个量的重复测量值之间的接近程度。
偏置:测量值与被测量值之间的系统的变化。
准确率:被测量的测量值与实际值之间的接近度。
伪像:数据确定性失真常称作伪像。
3、精度、偏置、准确率
精度:同一个量的重复测量值之间的接近程度。
偏置:测量值与被测量值之间的系统的变化。
准确率:被测量的测量值与实际值之间的接近度。
精度:同一个量的重复测量值之间的接近程度。
偏置:测量值与被测量值之间的系统的变化。
准确率:被测量的测量值与实际值之间的接近度。
精度通常用值集合的标准差度量,而偏置通常用值几何的均值与测出的已知值之间的差度值。
准确率依赖于精度和偏置。(无公式,有效数字)
4、离群点
离群点:指在某种意义上具有不同于数据集中其他大部分数据对象的特征的数据对象。
我们也称之为异常,区别噪声和离群点是非常重要的。
5、遗漏值
遗漏值:指一个对象遗漏一个或者多个属性值。
应对策略:
(1)删除数据对象或属性:删除具有遗漏值的数据对象,然而有时即便不完整的数据对象也可能包含一些有用的信息。
(2)估计遗漏值:有时可以采用插值方法对具有平滑变化规律的对象的属性遗漏值进行可靠估计。
(3)在分析时忽略遗漏值:在聚类分析时,需要计算两两数据对象的相似性,可以采用一个对象或两个对象没有遗漏值的属性来计算相似性。
6、不一致的值
我们也称之为异常,区别噪声和离群点是非常重要的。
5、遗漏值
遗漏值:指一个对象遗漏一个或者多个属性值。
应对策略:
(1)删除数据对象或属性:删除具有遗漏值的数据对象,然而有时即便不完整的数据对象也可能包含一些有用的信息。
(2)估计遗漏值:有时可以采用插值方法对具有平滑变化规律的对象的属性遗漏值进行可靠估计。
(3)在分析时忽略遗漏值:在聚类分析时,需要计算两两数据对象的相似性,可以采用一个对象或两个对象没有遗漏值的属性来计算相似性。
6、不一致的值
应对策略:
(1)删除数据对象或属性:删除具有遗漏值的数据对象,然而有时即便不完整的数据对象也可能包含一些有用的信息。
(2)估计遗漏值:有时可以采用插值方法对具有平滑变化规律的对象的属性遗漏值进行可靠估计。
(3)在分析时忽略遗漏值:在聚类分析时,需要计算两两数据对象的相似性,可以采用一个对象或两个对象没有遗漏值的属性来计算相似性。
6、不一致的值
数据中可能出现牛头不对马嘴的情况,需要进行一些校验和纠正。
7、重复数据
为了检测并删除这种重复,必须处理两个问题:
(1)如果两个对象实际代表同一个对象,则对于的属性值必然不同,必须解决这些不一致的值。
(2)需要避免意外地将两个相似但并非重复的数据对象合并在一起。
(1)如果两个对象实际代表同一个对象,则对于的属性值必然不同,必须解决这些不一致的值。
(2)需要避免意外地将两个相似但并非重复的数据对象合并在一起。
关于数据应用,需要考虑时效性、相关性(考虑到包含的对象与他们在群体中的比例或做出响应)以及关于数据的知识。(如果文档标明若干属性是强相关的,那么这些属性可能提供了高度冗余的信息,可以考虑合并)
二、数据对象的统计描述
1、中心趋势的度量
数据的基本统计描述可以用来识别数据的性质,凸显哪些数据值应为噪声和离群点。
平均值:
数据集中心最常用的数值度量是算术平均值。
均值的指标对于极端值(离群点)很敏感。(平均收入)
为了解决这一现象,消除少数极端值的影响——截尾均值(丢弃掉高低极端后的均值)。
中位数:
对于倾斜(非对称)数据,数据中心的更好度量是中位数。
中位数是有序数据值的中间值,它是把数据较高的一半与较低的一半分开的值。
众数:
数据集合中出现最频繁的值为众数。
具有1、2、3个众数的数据集分别称为单峰的,双峰的,三峰的。
中列数:
中列数是指数据集的最大和最小值的平均值
总结:
在具有完全对称的数据分布的单峰频率曲线中,均值,中位数和众数都是相同的中心值。
在数据分布不对称的条件下,众数出现在小于中位数的值上,则数据分布是正倾斜的。若众数出现在大于中位数的值上,数据分布是负倾斜的。
2、数据散布的度量
极差:数据集合里最大值和最小值之差。
分位数:取自数据分布的每隔一定间隔上的点,把数据划分成基本大小相等的连贯集合。
百分位数:将数据分布划分成100个大小相等的连贯集。
四分位数:用三个数据点将数据划分称为四个相等的部分,使得每部分表示数据分布的四分之一,Q1~Q3(第25个百分位数~第75个百分位数)。
四分位数极差(IQR):第一个和第三个四分位数之间的距离是散步的度量,它给出数据的中间一半所覆盖的范围,IQR=Q3-Q1。
五数:最大值、最小值、Q1、Q3。
异常值:超过1.5倍IQR。
箱线图:Q1,Q3,IQR,中位数,最大值,最小值。
分位数:取自数据分布的每隔一定间隔上的点,把数据划分成基本大小相等的连贯集合。
百分位数:将数据分布划分成100个大小相等的连贯集。
四分位数:用三个数据点将数据划分称为四个相等的部分,使得每部分表示数据分布的四分之一,Q1~Q3(第25个百分位数~第75个百分位数)。
四分位数极差(IQR):第一个和第三个四分位数之间的距离是散步的度量,它给出数据的中间一半所覆盖的范围,IQR=Q3-Q1。
五数:最大值、最小值、Q1、Q3。
异常值:超过1.5倍IQR。
箱线图:Q1,Q3,IQR,中位数,最大值,最小值。
四分位数:用三个数据点将数据划分称为四个相等的部分,使得每部分表示数据分布的四分之一,Q1~Q3(第25个百分位数~第75个百分位数)。
四分位数极差(IQR):第一个和第三个四分位数之间的距离是散步的度量,它给出数据的中间一半所覆盖的范围,IQR=Q3-Q1。
五数:最大值、最小值、Q1、Q3。
异常值:超过1.5倍IQR。
箱线图:Q1,Q3,IQR,中位数,最大值,最小值。
五数:最大值、最小值、Q1、Q3。
异常值:超过1.5倍IQR。
箱线图:Q1,Q3,IQR,中位数,最大值,最小值。
箱线图:Q1,Q3,IQR,中位数,最大值,最小值。
方差和标准差:
方差和标准差表示数据分布的散布程度。
低标准差意味数据观测趋于均值附件,而高标准差意味数据散布在一个大的值域中。
当数据分布不存在发散是,即当所有的观测值都具有相同值时,标准差为零,负责标准差大于零。
3、数据可视化
基于像素的可视化——m维数据集的映射
几何投影的可视化——散点图
基于图符的可视化 ——采用一系列图符表示多维数据值
标签云可视化——基于用户生成的标签
4、数据的相似性和相异性度量
几何投影的可视化——散点图
基于图符的可视化 ——采用一系列图符表示多维数据值
标签云可视化——基于用户生成的标签
4、数据的相似性和相异性度量
标签云可视化——基于用户生成的标签
4、数据的相似性和相异性度量
一旦计算出相异性或相异性,就不再需要原始数据,可以看作将数据变换到相异性(相似性)空间,然后进行分析。
当我们知道两个变量强相关的时候,有助于消除冗余。
相似度:定义为两个对象相似程度的数值度量,两个对象越相似,相似度数值越高。通常取值为非负,在[0,1]区间取值。
相异度:是两个对象差异程度的数值度量,对象越相似,相异度数值就越低。
数据对象之间的相异度:
对于二元数据相似性的度量,通常采用匹配简单系数(SMC),而对于非对称的二元属性的对象,采用Jaccard系数。
对于文档的相似性度量,除了忽略非对称的0-0匹配,还需要处理非二元向量。这就需要使用余弦相似度。
相关性:
相关性可以测量类型和取值尺度差异很大的属性间的相似度,如果两个数据对象中的值来自不同的属性,通常更频繁地使用相关性来度量属性之间的相似度。
互信息: 总结:对于许多稠密的,连续的数据,通常使用距离度量——欧几里得距离。
对于稀疏数据,相似度依赖于它们共同拥有的性质数,而不是他们都缺失的性质数目——余弦、Jaccard和广义Jaccard度量对于这类数据都是很合适的。
余弦更适合稀疏的文档数据,因为文档向量只需要考虑数据的缩放,而相关性更适合时间序列,因为时间序列中数据的缩放和平移都很重要。



