栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

大数据笔记2.2描述数据

大数据笔记2.2描述数据

01集中趋势 1、k百分位数
import numpy as np
X=np.array([-35,10,20,30,40,50,60,100])
k=25
Xk=np.percentile(X,k,interpolation='linear')
Nx=X.shape[0]
indices=1+(Nx-1)*k/100
print(indices,Xk)

numpy.array 数组介绍python中数组(numpy.array)的基本操作_fu6543210的博客-CSDN博客_np.array 为什么要用numpy    Python中提供了list容器,可以当作数组使用。但列表中的元素可以是任何对象,因此列表中保存的是对象的指针,这样一来,为了保存一个简单的列表[1,2,3]。就需要三个指针和三个整数对象。对于数值运算来说,这种结构显然不够高效。    Python虽然也提供了array模块,但其只支持一维数组,不支持多维数组(在TensorFlow里面偏向于矩阵理解),也...https://blog.csdn.net/fu6543210/article/details/83240024

numpy.percentile

在python中计算一个多维数组的任意百分比分位数,此处的百分位是从小到大排列,只需用np.percentile即可

shape[0]:对数组说,为其长度

对于图像来说:

        img.shape[0]:图像的垂直尺寸(高度)

        img.shape[1]:图像的水平尺寸(宽度)

        img.shape[2]:图像的通道数

对于矩阵来说:

        shape[0]:表示矩阵的行数

        shape[1]:表示矩阵的列数

02离中趋势 1、极差(Range)

R=max-min

2、四分位数极差(InterQuartile Range,IQR)

IQR=Q3-Q1 (第三四分位数-第一四分位数)

反映集合中间50%数据的变动范围

可用于发现离群点(outlier):超过Q3+1.5IQR或者低于Q1-1.5IQR可能是离群点

3、平均绝对离差(MAD)

MAD=1/nΣ|xi-x|

由于带有绝对值,很少使用

4、方差和标准差(Variance and Absolute Deviation)

总体标准差 σ

样本方差 s^2=Σ(xi-x)^2/(n-1)

标准差 s=sqrt( s^2)

5、离散系数(变异系数)

C=s/x~ (标准差÷平均值)

注意:只对由比率标度属性计算出来的数值有意义(身高、体重、工资)

离散系数越大,说明差异越大

03分布形态

1、偏度

2、峰度

04数据可视化

1、箱形图

2、偏度峰度

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/307595.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号