栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

Heatmap热力图、pandas.DataFrame.corr()、皮尔森相关系数

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

Heatmap热力图、pandas.DataFrame.corr()、皮尔森相关系数

Heatmap热力图

Heatmap热力图是一个以颜色变化来显示数据的矩阵。

matplotlib可通过以下两种方法绘制heamap;
 

matplotlib.axes.Axes.imshow
matplotlib.pyplot.imshow

我们以天池上的精灵宝可梦数据为例:

https://pai-public-data.oss-cn-beijing.aliyuncs.com/pokemon/pokemon.csvhttps://pai-public-data.oss-cn-beijing.aliyuncs.com/pokemon/pokemon.csv导入数据之后,对其进行热力图操作

plt.subplots(figsize=(20,15))
ax = plt.axes()
ax.set_title("Correlation Heatmap")
corr = df.corr()
sns.heatmap(corr, 
            xticklabels=corr.columns.values,
            yticklabels=corr.columns.values)

 从上面可以很直观的看出每项之间的关系系数,在左边是表示的颜色指数,绝对值越靠近1表示关系越靠近。

pandas.Dataframe.corr()

在上述代码中,有一个corr(),它的使用方法一般是

pandas.Dataframe.corr()
Dataframe.corr(self, method, min_periods=1) 

method是计算相关系数的方法,默认是皮尔森相关系数;
min_periods是说,最小样本数,因为相关系数有些缺点,比如样本数太少的话,相关系数的意义就不是很大。

皮尔森相关系数

 COV为两个变量的协方差,分母为两个变量标准差的乘积。  ux是X的平均值, uy 是Y的平均值,E为期望。皮尔森相关系数是一个线性相关的系数,反映两个量之间的线性相关程度的。这个值常用小写字母r来表示。r值范围在-1到1之间,绝对值越接近于1,相关性越强(负相关/正相关)。

总之,热力图是数据处理很常见的图像,在做数据处理的过程中,可以比较直观看出各项特征之间的关系,皮尔森相关系数也是一项有力的助手。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/529972.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号