栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

动手学数据分析task01 数据加载及探索性数据分析

动手学数据分析task01 数据加载及探索性数据分析

第一章第一节 数据加载——载入数据
  • 数据集下载 https://www.kaggle.com/c/titanic/overview
  • 数据集采用的是kaggle竞赛的官方数据集

把数据分块读取(chunksize)

更改列名
  • 可以选择直接全部更改,甚至可以制定某一行作为第一列的索引列

初步观察 查看前10行和后15行的数据


查看基本数据特征


数据最基础操作——判空
  • 以前五行为例:
保存数据到新的csv

第一章第二节 数据加载——pandas基础 pandas中有两个数据类型Dateframe和Series series如下:

dataframe如下:

查看全部列名

查看某一列的所有取值

删除某一列
del test_1['a']

选择性忽视某些列
  • 其中有一个属性为inplace,默认情况下是FALSE,如果设置为TRUE,表明进行对原来数据的覆盖

对列属性的条件筛选 年龄小于10岁的
df[df["Age"]<10].head(3)

以"Age"为条件,将年龄在10岁以上和50岁以下的乘客信息显示出来,并将这个数据命名为midage
midage = df[(df["Age"]>10)& (df["Age"]<50)]
midage.head(3)

reset_index
  • 数据清洗时,会将带空值的行删除,此时Dataframe或Series类型的数据不再是连续的索引,可以使用reset_index()重置索引。
选择多行多列数据

midage的数据中第100,105,108行的"Pclass","Name"和"Sex"的数据显示出来

  • ① 使用loc方法
midage.loc[[100,105,108],['Pclass','Name','Sex']] 

  • ② 使用iloc方法
midage.iloc[[100,105,108],[2,3,4]]

第一章第三节 数据加载——探索性数据分析 按照某一列进行升序、降序排列
frame.sort_values(by='c', ascending=True)
  • by参数指向要排列的列,ascending参数指向排序的方式(升序还是降序)



转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/662919.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号