栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

Coursera上UM的Applied Python课学习记录(1)

Coursera上UM的Applied Python课学习记录(1)

课上的老师推荐的Pandas原说明文件 https://pandas.pydata.org/pandas-docs/stable/pandas.pdf 
(pp.31后都和这节课的dataframe, series操作有关)

作业一共十三题,每一题大概对应不同的Pandas功能或数据分析/清理需求

小白供自己整理学习,如有误导谬误之处请指证!感谢

第1题)基本操作: 读取外部文件read 分隔信息sep 只取表格中的个别列usecols 设置空值na_values 给表格里的列命名names 替换单元格的值replace 按照某一列排序sort 合并多个数据框架merge

      

题目要求:

a) 导入三个能源与GDP相关的不同类型的表格,按照要求命名 (pp.105-108)

可见Pandas说明文件pp.104-105读取csv文件,pp.362-362关于excel文件读取的解释

name_of_dataframe1 = pd.read_excel('file_name.xls') #read_excel 可以读 xls,xlsx 文件
name_of_dataframe2 = pd.read_csv('file_name.xls') #read_csv 可以读 csv 文件

*额外截图:关于不同文件的读取对照(pp.287)

b) 设置分行方式

根据文档pp.288,Pandas似乎只对csv文档有default分隔符的处理。

当我们需要对excel文档进行可以采用的是对sep/delimeter进行设置。可以采取的符号有',' , 's'

name_of_dataframe_1 = pd.read_excel('file_name.xls', 
                                     sep = ',')

c) 将表格的前两列去除(不读前两列)

根据文档pp.298, 使用usecols. 不是非常清楚这里是否要删除前两列空列.

usecols不能用':'选取某行以前或以后的,只能一个一个写出来

 *参考了这位大哥/小姐姐的文章[Coursera | Introduction to Data Science in Python] Assignment 3 - More Pandas_jiaoyiru的博客-CSDN博客

name_of_dataframe1 = pd.read_excel('file_name.xls', 
                                    sep = ',', 
                                    usecols = [2,3,4,5,6,...]) #应该也可以写作usecols=lambda x: x not in ["a", "c"])

d) 将表格里“...”的单元格都转化为np.nan 空值

pandas default会把某些表达默认为是空值,但是如果需要自动设置空值,可以使用na_values

name_of_dataframe1 = pd.read_excel('file_name.xls', 
                                    sep = ',', 
                                    na_values = '...',
                                    usecols = [2,3,4,5,6])

e) 将采用的列根据需求重新命名(在题目里只需要给原本没有的赋予名称,不过也可以了解一下重新命名列的写法)

pp.151 重命名column的方法(注意是method而不是直接=)

dataframe.rename(columns={"original_name": "rename_name"})

 pp.1037 解释了在导入时备注name的方法*如果不需要命名可以使用header = 0来override

name_of_dataframe = pd.read_excel('file_name.xls', 
                                   sep = ',', 
                                   na_values='...',
                                   usecols = [2,3,4,5,6],
                                   names=['Column1','Column2','Column3'])

f) 替换cell内的值

pp.75 写到了replace() method. 这个方法需要使用dict字典的形式来定义需要转换的和转换成为的字符 It requires a dictionary to define the mapping {from : to}. 

name_of_dataframe["use_new_column_or_use_old"] = dataframe["original_column"].replace({"original_value1": "new_value1", "original_value2": "new_value2"})

g) merge不同的表格(数据框架)

pp.50-51 介绍了把两个表合并的案例

New_Dataframe = pd.merge(df1, df2, how="left", on="index_column") #how这一部分可以写outer,inner,left,right

h) 根据某一行排序sort_values() 

*参考了这位大哥/小姐姐的文章

python pandas sort_values()方法的使用_python小工具的博客-CSDN博客_python sort_values

排序的不同方式:

*关于是否要使用by=来指定排序的根据,我没有找到很好的答案。

df.sort_values(['col1'], inplace = True)
df.sort_values(['col1', 'col2'])
df.sort_values('col1', ascending=False) #降序排列
df.sort_values(by="col1")

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/707083.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号