——参考链接:https://www.cnblogs.com/traditional/p/12514914.html
4、dataframe 修改列名与行名方法一:
df.columns = [‘a’,‘b’,‘c’]
df.index = [‘a0’,‘a1’,‘a2’,‘a3’,‘a4’]
方法二:
df.rename(columns={“A”: “a”, “B”: “c”})
方法三:
df.rename(str.lower, axis=‘columns’)
方法四:
df.rename({1: 2, 2: 4}, axis=‘index’)
df.info, df.head(10), df.tail(20), df.isnull().head()
6、表的保存df.to_csv()
7、排序sort_values()方法
sort_values(by, axis=0, ascending=True, inplace=False, kind=‘quicksort’, na_position=‘last’)
①axis 如果axis=0,那么by=“列名”; 如果axis=1,那么by=“行名”;注:如果by两列,其实也是按第一列进行排序。
②ascending: True则升序,可以是[True,False],即第一字段升序,第二个降序
③inplace: 是否用排序后的数据框替换现有的数据框 ,True,或者False
④kind: 排序方法
⑤na_position : {‘first’, ‘last’}, default ‘last’,默认缺失值排在最后面
df.sort_index(axis = 0/1,ascending = (TRUE or FALSE))
只有在两个dataframe中都有的行和列才会相加,但是结果是两个dataframe的并集,没有的值是Nan
9、df.describe() 或df[’**’].describe() 数据的基本信息‘’’
count : 样本数据大小
mean : 样本数据的平均值
std : 样本数据的标准差
min : 样本数据的最小值
25% : 样本数据25%的时候的值
50% : 样本数据50%的时候的值
75% : 样本数据75%的时候的值
max : 样本数据的最大值
‘’’
df.columns
11、删除多余的列① del test_1[‘a’]
② df.drop( ‘列名’, axis = , inplace = ) inplace默认是False,可以作为隐藏操作来查看数据
df[ df[‘age’] < 10].head()
13、重置索引df.reset_index(drop = True)
drop如果等于True,删除原来的索引,如果是False,原来的索引保留成第一列。
iloc基于位置进行索引,主要是整数,也可以用布尔数组
loc基于行和列的标签进行索引,列标签中是从索引列的后一列开始,记为0



