Python Pandas操作Excel 01

1.1 Pandas操作Excel 01

1.1.1 数据类型和新建文件

我们用pandas，操作的常见数据类型有：csv txt excel sql

数据.to_csv() 可以新建一个 csv 文件
数据.to_excel() 可以新建一个 excel 文件
数据.to_sql() 可以新建一个 sql 文件

在我们新建文件之前，肯定要学习如何封装相应的数据。

pd.Dataframe() 封装成一个二维数据表

import pandas as pd

二维数据表 = pd.Dataframe({'序号':[1,2,3],'姓名':['a','b','c']})
二维数据表 = 二维数据表.set_index('序号')
二维数据表.to_excel('1.xlsx',)
print('新建 1.xlsx 成功')

二维数据表 = 二维数据表.set_index('序号') 我们把索引列设置为我们提供的一列 Key，这样就不会出现默认索引列了。

pd.Series() 封装一个一维数据表

1.2.1 读取 txt 和 csv 文件

read_csv() 默认以文本内容的逗号为分隔符

import pandas as pd

读取数据 = pd.read_csv('1.csv')

print(读取数据)

read_table() 默认以文本内容的 t 制表符为分隔符

import pandas as pd

# 读取数据 = pd.read_csv('1.csv')
读取数据 = pd.read_table('1.csv')
读取数据2 = pd.read_table('1.csv',sep=',')
print(读取数据)
print(读取数据2)

如果文本内容的分隔符跟我们用的这两个方法没有一个是对应的，就需要告诉方法我们的分隔符是什么。

1.2.2 认识 read_csv() 的参数

参数	描述
sep	分隔符，字符串或正则表达式都支持
header	表头的行号设置为什么，以哪个行号为表头。如果没有表头应该写 None
names	配合 header=None 使用，创建一行新的表头
index_col	设置索引为哪一列，可以是表头名，或列号
skiprows	从文件开始处，需要跳过的行数或行号列表。[2,3] 跳过 2 号行和3号行，如果直接提供一个数字，那么就是从读取处开始跳过多少行数据。
encoding	编码，例如 utf-8
nrows	从文件开头处读入的行数，限制我们读几行。

① 比如我们把 1 号行，设置为表头

import pandas as pd

# 读取数据 = pd.read_csv('1.csv')
读取数据 = pd.read_table('1.csv')
读取数据2 = pd.read_table('1.csv',sep=',',header=1)
print(读取数据)
print(读取数据2)

② 创建一个新表头

import pandas as pd

# 读取数据 = pd.read_csv('1.csv')
读取数据 = pd.read_table('1.csv')
读取数据2 = pd.read_table('1.csv',sep=',',header=None,names=['字段1','字段2'])
print(读取数据)
print(读取数据2)

③ 过滤掉前 1行

import pandas as pd

# 读取数据 = pd.read_csv('1.csv')
读取数据 = pd.read_table('1.csv')
读取数据2 = pd.read_table('1.csv',sep=',',header=None,names=['字段1','字段2'])
print(读取数据)
print(读取数据2)

④ 过滤掉 1 号行

import pandas as pd

# 读取数据 = pd.read_csv('1.csv')
读取数据 = pd.read_table('1.csv')
读取数据2 = pd.read_table('1.csv',sep=',',header=None,names=['字段1','字段2'],skiprows=[1])
print(读取数据)
print(读取数据2)

⑤ 把字段1 当为索引列

import pandas as pd

# 读取数据 = pd.read_csv('1.csv')
读取数据 = pd.read_table('1.csv')
读取数据2 = pd.read_table('1.csv',sep=',',header=None,names=['字段1','字段2'],index_col='字段1',skiprows=1)
print(读取数据)
print(读取数据2)

⑥ 读取前两行

import pandas as pd

# 读取数据 = pd.read_csv('1.csv')
读取数据 = pd.read_table('1.csv')
读取数据2 = pd.read_table('1.csv',sep=',',header=None,names=['字段1','字段2'],index_col='字段1',skiprows=1,nrows=2)
print(读取数据)
print(读取数据2)

1.2.3 数据对象的一些方法

数据obj.head(读取的行数) 读取前几行数据

数据obj.shape 返回数据表的行数和列数

数据obj.columns 返回数据表的表头，装在一个列表里

数据obj.index 返回索引数据，比如从哪里开始，到哪里结束，步长是多少。

数据obj.dtypes 返回每一列or每一个字段的数据类型。即各个表头名里面存储的数据大致是什么类型的。

1.3.1 .txt 文件转 .csv 文件

import pandas as pd

txt数据 = pd.read_csv(txt文件路径)
txt数据.to_csv(csv文件的存储路径)

就很简单，这样直接进行转换就行。

1.4.1 读取 mysql 文件

import pymysql
import pandas as pd

连接对象 = pymysql.connect(host='localhost',user='root',password='123123',database='tempdata')

# 创建一个 模拟 sql 语句操作者 的对象（游标对象）
游标对象 = 连接对象.cursor()

数据表  = pd.read_sql('select * from `基本信息表`',con=连接对象)

print(数据表)

1.5.1 读取 Excel 文件

import pandas as pd

数据表 = pd.read_excel('1.xlsx')
print(数据表)

Python Pandas操作Excel 01

Python相关栏目本月热门文章