一、 可视化概念
数据可视化,是关于数据视觉表现形式的科学技术研究,它为大数据分析提供了一种更加直观的挖掘、分析与展示当代手段。数据可视化以数据挖掘、数据采集、数据分析为基础;此外,它还是一种新的表达数据的方式,是对现实世界的抽象表达。
二、 统计学概念
- 集中趋势的度量
集中趋势的度量通常称为平均值,用于描述概率分布的中心值或典型值。
平均值:将所有测量值相加,并除以观察值的数量所得到的算术平均值。
中位数:表示有序数据集的中间值,如果包含偶数个观测值,中位数将是两个中间值的平均值。与平均值相比,中位数不太容易出现异常值。其中,异常值表示为数据中较为独特的值。
模式(众数):模式被定义为最频繁的值,在多个值同样频繁的情况下,可能存在多个模式。 - 离散度的度量
离散度也称作可变性,是指概率分布被拉伸或压缩的程度。
方差:是指各个数据与其算术平均数的离差平方和的平均数,它描述了一组数字与其平均值间的距离。
标准偏差:表示为方差的平方根。
范围:表示为数据集中最大和最小值间的差。
四分位范围:也称作中间离散或中间50%,表示第75和第25百分位之间的差,或上四分位数和下四分位数之间的差。 - 相关性
相关性表示两个变量间的统计学关系。
在正相关中,两个变量在同一方向上移动。
在负相关中,两个变量以相反方向移动。
在0相关中,变量间彼此不相关。
注意:相关性并不意味着因果关系。相关性描述了两个变量间的关系,而因果关系则描述了一个事件如何被另一个事件所引发。
两个变量的相关性可以使用协方差来衡量。
三、 numpy - 概念
核心对象ndarray
ndarray对象比较重要的属性:
属性 说明
ndarray.ndim 秩,即轴的数量或维度的数量
ndarray.shape 数组的维度,对于矩阵,n 行 m 列
ndarray.size 数组元素的总个数,相当于 .shape 中 n*m 的值
ndarray.dtype ndarray 对象的元素类型
ndarray.itemsize ndarray 对象中每个元素的大小,以字节为单位
ndarray.flags ndarray 对象的内存信息
ndarray.data 包含实际数组元素的缓冲区,由于一般通过数组的索引获取
元素,所以通常不需要使用这个属性。 - 索引和切片
自己练习 - Numpy常用方法
Np.max
Np.min
Np.average
Np.std
Np.var
Np.random.normal
Np.random.uniform
Np.linspace
Np.arange
Np.random.rand
Np.random.randint
Np.random.randn
四、 pandas
- 核心对象
Series和Dataframe - Dataframe对象的创建
- 增
- 删
- 改
- 查
- 遍历
五、 matplotlib - 比较图
柱状图
线型图
雷达图 - 关系图
散点图
气泡图
热图
相关图 - 合成图
饼图
堆叠柱状图
韦恩图 - 分布图
直方图
箱型图
小提琴图
以上加粗内容要求能够编写代码实现
Matplotlib常用方法:
绘图方法,如:plot、hist、bar、pie等
Subplot
Title
Xlabel
Ylabel
Legend
Xticks
Yticks
Xlim
Ylim
等
六、 Seaborn
Set_style及五种风格
调色板的使用



