- 数据集下载 https://www.kaggle.com/c/titanic/overview
- 数据集采用的是kaggle竞赛的官方数据集
- 可以选择直接全部更改,甚至可以制定某一行作为第一列的索引列
- 以前五行为例:
del test_1['a']选择性忽视某些列
- 其中有一个属性为inplace,默认情况下是FALSE,如果设置为TRUE,表明进行对原来数据的覆盖
df[df["Age"]<10].head(3)以"Age"为条件,将年龄在10岁以上和50岁以下的乘客信息显示出来,并将这个数据命名为midage
midage = df[(df["Age"]>10)& (df["Age"]<50)] midage.head(3)reset_index
- 数据清洗时,会将带空值的行删除,此时Dataframe或Series类型的数据不再是连续的索引,可以使用reset_index()重置索引。
midage的数据中第100,105,108行的"Pclass","Name"和"Sex"的数据显示出来
- ① 使用loc方法
midage.loc[[100,105,108],['Pclass','Name','Sex']]
- ② 使用iloc方法
midage.iloc[[100,105,108],[2,3,4]]第一章第三节 数据加载——探索性数据分析 按照某一列进行升序、降序排列
frame.sort_values(by='c', ascending=True)
- by参数指向要排列的列,ascending参数指向排序的方式(升序还是降序)



