这十套练习，教你如何用Pandas做数据分析

最新工作比较忙，python这块搁置了好久都没有好好学习以及更新相关学习笔记，立下flag，争取两天更新一个练习题，到十一月初更新完这块内容

练习题下载

数据下载链接数据文件地址
通过上述链接将文件保存在相应的路径下面

习题编号	内容	相应数据集
练习1 - 开始了解你的数据	探索Chipotle快餐数据	chipotle.tsv
练习2 - 数据过滤与排序	探索2012欧洲杯数据	Euro2012_stats.csv
练习3 - 数据分组	探索酒类消费数据	drinks.csv
练习4 -Apply函数	探索1960 - 2014 美国犯罪数据	US_Crime_Rates_1960_2014.csv
练习5 - 合并	探索虚拟姓名数据	练习中手动内置的数据
练习6 - 统计	探索风速数据	wind.data
练习7 - 可视化	探索泰坦尼克灾难数据	train.csv
练习8 - 创建数据框	探索Pokemon数据	练习中手动内置的数据
练习9 - 时间序列	探索Apple公司股价数据	Apple_stock.csv
练习10 - 删除数据	探索Iris纸鸢花数据	iris.csv

查看相关数据集

1.导入对应的os库

import os

2.查看当前路径

os.getcwd()

输出

'D:\PythonFlie\python\pandas'

3.查看对应路径下的文件

os.listdir( )

输出

['.ipynb_checkpoints',
 'pandas_exercise',
 'Pandas基础命令速查表0922.ipynb',
 '测试数据.csv',
 '测试数据.xlsx',
 '这十套练习，教你如何用Pandas做数据分析0929.ipynb']

4.pandas_exercise为存放数据的文件，进入该文件查看相关数据文件

os.chdir("D:\PythonFlie\python\pandas\pandas_exercise")
print(os.getcwd()) #查看是否进入对应的路径
print(os.listdir()) #查看上述路径下的文件后，发现数据在exercise_data文件下面，继续更改路径

os.chdir("D:\PythonFlie\python\pandas\pandas_exercise\exercise_data")
print(os.getcwd()) #查看是否进入对应的路径

os.listdir() #查看该路径下的文件

输出

D:PythonFliepythonpandaspandas_exercise
['exercise_data']
D:PythonFliepythonpandaspandas_exerciseexercise_data
['Apple_stock.csv',
 'cars.csv',
 'chipotle.tsv',
 'drinks.csv',
 'Euro2012_stats.csv',
 'iris.csv',
 'second_cars_info.csv',
 'train.csv',
 'US_Crime_Rates_1960_2014.csv',
 'wechart.csv',
 'wind.data']

练习1-开始了解你的数据

探索Chipotle快餐数据，数据为chipotle.tsv

1.步骤1 导入必要的库

import pandas as pd

2.步骤2 获取数据集

path1 = "D:\PythonFlie\python\pandas\pandas_exercise\exercise_data\chipotle.tsv"    # chipotle.tsv

3.步骤3 将数据集存入一个名为chipo的数据框内

chipo = pd.read_csv(path1, sep = 't')

4.步骤4 查看前10行内容

chipo.head(10)

输出

5.步骤5 数据集中有多少个列(columns)

print(chipo.shape)  #查看数据集的行与列
print(chipo.shape[1]) #查看数据集的列数

输出

(4622, 5)
5

6.步骤6打印出全部的列名称

chipo.columns

输出

Index(['order_id', 'quantity', 'item_name', 'choice_description',
       'item_price'],
      dtype='object')

7.步骤7 数据集的索引是怎样的

chipo.index

输出

RangeIndex(start=0, stop=4622, step=1)

8.步骤8 被下单数最多商品(item)是什么?

#将chipo中的item_name和quantity两列取出来后，对item_name进行分组后对quantity进行求和
c = chipo[['item_name','quantity']].groupby(['item_name']).agg({'quantity':sum})


#对quantity列进行降序排列
c.sort_values(['quantity'],ascending=False,inplace=True)

#取前五项查看
c.head()

这十套练习，教你如何用Pandas做数据分析

Python相关栏目本月热门文章