栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

这十套练习,教你如何用Pandas做数据分析

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

这十套练习,教你如何用Pandas做数据分析

最新工作比较忙,python这块搁置了好久都没有好好学习以及更新相关学习笔记,立下flag,争取两天更新一个练习题,到十一月初更新完这块内容

练习题下载
  • 数据下载链接数据文件地址
  • 通过上述链接将文件保存在相应的路径下面
习题编号内容相应数据集
练习1 - 开始了解你的数据探索Chipotle快餐数据chipotle.tsv
练习2 - 数据过滤与排序探索2012欧洲杯数据Euro2012_stats.csv
练习3 - 数据分组探索酒类消费数据drinks.csv
练习4 -Apply函数探索1960 - 2014 美国犯罪数据US_Crime_Rates_1960_2014.csv
练习5 - 合并探索虚拟姓名数据练习中手动内置的数据
练习6 - 统计探索风速数据wind.data
练习7 - 可视化探索泰坦尼克灾难数据train.csv
练习8 - 创建数据框探索Pokemon数据练习中手动内置的数据
练习9 - 时间序列探索Apple公司股价数据Apple_stock.csv
练习10 - 删除数据探索Iris纸鸢花数据iris.csv
查看相关数据集

1.导入对应的os库

import os

2.查看当前路径

os.getcwd()
  • 输出
'D:\PythonFlie\python\pandas'

3.查看对应路径下的文件

os.listdir( )
  • 输出
['.ipynb_checkpoints',
 'pandas_exercise',
 'Pandas基础命令速查表0922.ipynb',
 '测试数据.csv',
 '测试数据.xlsx',
 '这十套练习,教你如何用Pandas做数据分析0929.ipynb']

4.pandas_exercise为存放数据的文件,进入该文件查看相关数据文件

os.chdir("D:\PythonFlie\python\pandas\pandas_exercise")
print(os.getcwd()) #查看是否进入对应的路径
print(os.listdir()) #查看上述路径下的文件后,发现数据在exercise_data文件下面,继续更改路径

os.chdir("D:\PythonFlie\python\pandas\pandas_exercise\exercise_data")
print(os.getcwd()) #查看是否进入对应的路径

os.listdir() #查看该路径下的文件
  • 输出
D:PythonFliepythonpandaspandas_exercise
['exercise_data']
D:PythonFliepythonpandaspandas_exerciseexercise_data
['Apple_stock.csv',
 'cars.csv',
 'chipotle.tsv',
 'drinks.csv',
 'Euro2012_stats.csv',
 'iris.csv',
 'second_cars_info.csv',
 'train.csv',
 'US_Crime_Rates_1960_2014.csv',
 'wechart.csv',
 'wind.data']
练习1-开始了解你的数据
  • 探索Chipotle快餐数据,数据为chipotle.tsv

1.步骤1 导入必要的库

import pandas as pd

2.步骤2 获取数据集

path1 = "D:\PythonFlie\python\pandas\pandas_exercise\exercise_data\chipotle.tsv"    # chipotle.tsv

3.步骤3 将数据集存入一个名为chipo的数据框内

chipo = pd.read_csv(path1, sep = 't')

4.步骤4 查看前10行内容

chipo.head(10)
  • 输出

5.步骤5 数据集中有多少个列(columns)

print(chipo.shape)  #查看数据集的行与列
print(chipo.shape[1]) #查看数据集的列数
  • 输出
(4622, 5)
5

6.步骤6打印出全部的列名称

chipo.columns
  • 输出
Index(['order_id', 'quantity', 'item_name', 'choice_description',
       'item_price'],
      dtype='object')

7.步骤7 数据集的索引是怎样的

chipo.index
  • 输出
RangeIndex(start=0, stop=4622, step=1)

8.步骤8 被下单数最多商品(item)是什么?

#将chipo中的item_name和quantity两列取出来后,对item_name进行分组后对quantity进行求和
c = chipo[['item_name','quantity']].groupby(['item_name']).agg({'quantity':sum})


#对quantity列进行降序排列
c.sort_values(['quantity'],ascending=False,inplace=True)

#取前五项查看
c.head()

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/339219.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号