栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

数据分析工具pandas

数据分析工具pandas

数据分析工具pandas
    • 1、pandas概述
      • 1.2概述
      • 1.2数据处理流程
    • 2、数据读写
      • 2.1概述
      • 2.2数据的读写
      • 2.3数据库数据
        • 2.3.1数据库数据存储
        • 2.3.2数据库数据的读写
    • 3、两种数据结构
      • 3.1Series对象
      • 3.2Dataframe数组对象
    • 4、数据预处理
      • 4.1数据的查找
      • 4.2数据删除
      • 4.3数据添加
      • 4.4数据修改
      • 4.5 数据合并
    • 5、数据清洗
      • 5.1重复值的检测与处理
      • 5.2缺失值的检测
      • 5.3缺失值的处理
        • 5.3.1删除法处理缺失值
        • 5.3.2替换法处理缺失值
      • 5.4数据转换
        • 5.4.1哑变量处理

1、pandas概述 1.2概述

Pandas = Python Data Analysis Library;基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建;一个强大的Python数据分析的工具包;提供了大量能使我们快速便捷地处理数据的函数和方法

1.2数据处理流程
  1. 数据的读写
  2. 数据预处理(数据清洗)
  3. 数据分析
  4. 数据可视化
2、数据读写 2.1概述
  1. Pandas支持的数据源有:数据库、excel、文本文件、其他。
2.2数据的读写

①.读取泰坦尼克号数据集(下载连接:titanic3.xls)

import pandas as pd
data=pd.read_excel("titanic3.xls",sheet_name="titanic3")
print(data.head())#显示前5条数据

②.读取北京PM2.5的csv数据集(下载连接:BeijingPM2.5.csv)

import pandas as pd
pm25 = pd.read_csv("BeijingPM2.5.csv",sep=",",encoding="utf-8")
print(pm25.tail())#显示最后5条数据

③.read_csv和read_table常用参数及说明

④.写入文件to_csv

⑤.写入到to_excel
将文件存储为Excel文件,可以使用to_excel方法。其语法格式如下。
Dataframe.to_excel(excel_writer=None, sheetname=None’, na_rep=”, header=True, index=True, index_label=None, mode=’w’, encoding=None)

to_csv方法的常用参数基本一致,区别之处在于没有sep参数,增加了一个sheetnames参数用来指定存储的Excel sheet的名称,默认为sheet1。

2.3数据库数据 2.3.1数据库数据存储

pandas提供了读取与存储关系型数据库数据的函数与方法;除了pandas库外,还需要使用SQLAlchemy库建立对应的数据库连接;SQLAlchemy配合相应数据库的Python连接工具(例如MySQL数据库需要安装mysqlclient或者pymysql库),使用create_engine函数,建立一个数据库连接。

2.3.2数据库数据的读写


3、两种数据结构 3.1Series对象

3.2Dataframe数组对象


4、数据预处理 4.1数据的查找

4.2数据删除


4.3数据添加

4.4数据修改

4.5 数据合并

5、数据清洗 5.1重复值的检测与处理

5.2缺失值的检测

5.3缺失值的处理 5.3.1删除法处理缺失值

5.3.2替换法处理缺失值

5.4数据转换 5.4.1哑变量处理

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/317547.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号