动手学数据分析 -- 2021-11-15

动手学数据分析第一章数据的载入及pandas基础 1、os.getcwd ------ 返回当前工作目录 2、pd.read_table(路径，sep = ‘,’ 或 ‘t’ 默认是制表位) 3、pd.read_csv

——参考链接：https://www.cnblogs.com/traditional/p/12514914.html

4、dataframe 修改列名与行名

方法一：
df.columns = [‘a’,‘b’,‘c’]
df.index = [‘a0’,‘a1’,‘a2’,‘a3’,‘a4’]

方法二：
df.rename(columns={“A”: “a”, “B”: “c”})

方法三：
df.rename(str.lower, axis=‘columns’)

方法四：
df.rename({1: 2, 2: 4}, axis=‘index’)

5、查看表信息

df.info, df.head(10), df.tail(20), df.isnull().head()

6、表的保存

df.to_csv()

7、排序

sort_values（）方法
sort_values(by, axis=0, ascending=True, inplace=False, kind=‘quicksort’, na_position=‘last’)
①axis 如果axis=0，那么by=“列名”；如果axis=1，那么by=“行名”；注：如果by两列，其实也是按第一列进行排序。
②ascending: True则升序，可以是[True,False]，即第一字段升序，第二个降序
③inplace: 是否用排序后的数据框替换现有的数据框，True,或者False
④kind: 排序方法
⑤na_position : {‘first’, ‘last’}, default ‘last’，默认缺失值排在最后面
df.sort_index(axis = 0/1,ascending = (TRUE or FALSE))

8、两个Dataframe相加

只有在两个dataframe中都有的行和列才会相加，但是结果是两个dataframe的并集，没有的值是Nan

9、df.describe() 或df[’**’].describe() 数据的基本信息

‘’’
count : 样本数据大小
mean : 样本数据的平均值
std : 样本数据的标准差
min : 样本数据的最小值
25% : 样本数据25%的时候的值
50% : 样本数据50%的时候的值
75% : 样本数据75%的时候的值
max : 样本数据的最大值
‘’’

10、显示每列的名称

df.columns

11、删除多余的列

① del test_1[‘a’]
② df.drop( ‘列名’, axis = , inplace = ) inplace默认是False，可以作为隐藏操作来查看数据

12、筛选

df[ df[‘age’] < 10].head()

13、重置索引

df.reset_index(drop = True)
drop如果等于True，删除原来的索引，如果是False，原来的索引保留成第一列。

14、loc与iloc的区别

iloc基于位置进行索引，主要是整数，也可以用布尔数组
loc基于行和列的标签进行索引，列标签中是从索引列的后一列开始，记为0

动手学数据分析 -- 2021-11-15

Python相关栏目本月热门文章