栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

【优质原创】介绍一个效率爆表的探索性数据分析插件

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

【优质原创】介绍一个效率爆表的探索性数据分析插件

今天给大家介绍一款十分强大的数据集探索性分析插件,D-Tale,供我们分析和了解数据集的基本情况,并且支持对数据进行进一步的可视化分析,首先我们先要安装好该模块

pip install dtale
用D-Tale插件打开数据集

我们在D-Tale中打开数据集,代码如下

import dtale
import pandas as pd

df = pd.read_csv(r'gapminder_full.csv')
d = dtale.show(df)
d

output

数据集来源于Kaggle,当中包含了全世界每个国家的人口总数、人均GDP以及人口寿命等数据,下面我们就来尝试使用一下该插件的各项功能吧。

筛选数据

我们来看一下如何用D-Tale插件来进行数据的筛选,例如我们想要筛选出年份是2002年的内容,步骤如下

我们点击Action当中的Custom Filter,然后填上对应的year==2002,然后点击Apply即可实现,当然我们还可以点击对应的某一列,然后鼠标拉到底,同样也能进行操作,步骤如下

其他的数据基本操作

我们同样地可以对数据进行排序,在我们点击到某一列的时候,会弹出如下的选项框,

其中就包括了对数据进行排序的按钮,例如我们对gdp_cap这一列进行降序排序,步骤如下

我们还能够对数据集当中的每一列进行重命名,使用的是Rename这个选项按钮,步骤如下

那么如果是想要删除某一列的话,对应的则是Delete这个选项按钮了,相当于是Pandas当中的drop方法

而当我们点击Describe这个按钮之后,会出现针对某一列的统计性分析,如下图所示

并且可以通过图表可视化的形式来更加直观地展现统计分析的最终结果

如果我们要是想要查看各个特征变量之间的相关性,D-Tale插件会通过热力图的方式来呈现,步骤如下

图表的可视化功能

该插件还能够进行图表的绘制,我们点击图中Visualize按钮,并且在下拉框中选中Charts这个按钮

接下来我们便是进入到可视化的界面了,如下图所示

这里包含了折线图、散点图、直方图、词云图、热力图等各种图表的绘制,我们只需要指定好X轴上放置的变量、Y轴上放置的变量以及相对应的统计的方式即可,感兴趣的读者可以空的时候加以尝试

要是数据集当中存在缺失值,同样也可以通过图表的形式来展现,因为之前引用的数据集不存在缺失值,因为这里更改成另外的数据集来操作,步骤如下图所示

设置选项

我们来看一下工具栏中的setting按钮,点击之后再出现的下拉框中我们可以对界面设置是否为“深色模式”,以及对语言也可以进行设置

界面的宽度和高度我们要是觉得不行也能进行调整

分组统计

我们点击图表上方工具栏中的Actions按键,在下拉框中点击Summarize Data按键,出现如下的界面

我们点击GroupBy按钮,例如我们将要针对continent列来进行每一个大洲人均寿命的统计,步骤如下

最后我们可以导出上述操作的代码,步骤如下

获取本次教程使用到的数据集,在公众号后台回复【dtale】即可获取

NO.1

往期推荐

Historical articles

【原创好文】当机器学习遇到数据量不够时,这几个Python技巧为你化解难题

【原创内容】介绍一款进阶版的Pandas数据分析神器:Polars

【经典原创】分享几个好用到爆的Python内置模块

【原创内容】当Python需要与数据库交互时,这个模块就变得超级好用

分享、收藏、点赞、在看安排一下?

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/822735.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号