数据分析笔记（pandas）

Pandas是使用python语言开发的用于数据处理和数据分析的第三方库。擅长处理数字型数据和时间序列数据，还有文本型数据也可以轻松处理。
### pandas常用的数据类型：

1.Series，一维，带标签数组

2.Dataframe，二维，series容器

### Series创建

#通过列表创建
import pandas as pd
pd.Series([1,2,3,4,5,6,7])

#指定索引操作
t2 = pd.Series([1,2,3,4,5,6],index=list('abcdef'))

#通过字典创建
temp_dict = {
    'name':'zhangsan',
    'age':30,
    'tel':10086
}
t3 = pd.Series(temp_dict)

###Seires的切片索引

#通过索引取值
t3['age'],t3['tel']

#通过位置取值
t3[1],t3[2]

#取连续或者不连续多行
t3[:2]#取前两行
t3[[0,2]]#取第一行和第三行
t3[['name','tel']]#按照索引取不连续行

#布尔索引取值
t2[t2>5]#选中值大于5的值

#对索引的操作

t3.index

#迭代索引
for i in t3.index:
    print (i)

#对值操作与对索引操作一样

t3.values

###本质上series是带标签的一维数组

####pandas外部数据读取

pd.read_csv()
pd.read_excel()
pd.read_json()
pd.read_clipboard()
pd.read_sql()
###还有很多！！！

###pandas之Dataframe

创建Dataframe

pd.Dataframe(np.arange(12).reshape(3,4))

行索引，表明不同行，横向索引，0轴；列索引，表明不同列，纵向索引，1轴。

### 设置行索引与列索引名称

pd.Dataframe(np.arange(12).reshape(3,4),index=list('abc'),columns=list('WXYZ'))

###dataframe传入字典数据

### Dataframe的基础属性

df.info()与df.describe()也是两种经常使用的重要方法

pandas之取行或者取列

方括号写数字表示对行进行操作，写字符串表示对列进行操作

###pandas之loc

### pandas之布尔索引

###pandas中缺失数据的处理

###动手环节

呈现runtime的分布情况

runtime_data = df['Runtime (Minutes)'].values

max_runtime = runtime_data.max()
min_runtime = runtime_data.min()

#设置组距
num_bin = (max_runtime - min_runtime) // 5

#设置图形的大小
plt.figure(figsize=(20,8),dpi= 80)
plt.hist(runtime_data,num_bin)
plt.xticks(range(min_runtime,max_runtime+5,5))
plt.show()

数据分析笔记（pandas）

Python相关栏目本月热门文章