Pandas是使用python语言开发的用于数据处理和数据分析的第三方库。擅长处理数字型数据和时间序列数据,还有文本型数据也可以轻松处理。
### pandas常用的数据类型:
1.Series,一维,带标签数组
2.Dataframe,二维,series容器
### Series创建
#通过列表创建
import pandas as pd
pd.Series([1,2,3,4,5,6,7])
#指定索引操作
t2 = pd.Series([1,2,3,4,5,6],index=list('abcdef'))
#通过字典创建
temp_dict = {
'name':'zhangsan',
'age':30,
'tel':10086
}
t3 = pd.Series(temp_dict)
###Seires的切片索引
#通过索引取值 t3['age'],t3['tel'] #通过位置取值 t3[1],t3[2] #取连续或者不连续多行 t3[:2]#取前两行 t3[[0,2]]#取第一行和第三行 t3[['name','tel']]#按照索引取不连续行 #布尔索引取值 t2[t2>5]#选中值大于5的值
#对索引的操作
t3.index
#迭代索引
for i in t3.index:
print (i)
#对值操作与对索引操作一样
t3.values
###本质上series是带标签的一维数组
####pandas外部数据读取
pd.read_csv() pd.read_excel() pd.read_json() pd.read_clipboard() pd.read_sql() ###还有很多!!!
###pandas之Dataframe
创建Dataframe
pd.Dataframe(np.arange(12).reshape(3,4))
行索引,表明不同行,横向索引,0轴;列索引,表明不同列,纵向索引,1轴。
### 设置行索引与列索引名称
pd.Dataframe(np.arange(12).reshape(3,4),index=list('abc'),columns=list('WXYZ'))
###dataframe传入字典数据
### Dataframe的基础属性
df.info()与df.describe()也是两种经常使用的重要方法
pandas之取行或者取列
方括号写数字表示对行进行操作,写字符串表示对列进行操作
###pandas之loc
### pandas之布尔索引
###pandas中缺失数据的处理
###动手环节
呈现runtime的分布情况
runtime_data = df['Runtime (Minutes)'].values max_runtime = runtime_data.max() min_runtime = runtime_data.min() #设置组距 num_bin = (max_runtime - min_runtime) // 5 #设置图形的大小 plt.figure(figsize=(20,8),dpi= 80) plt.hist(runtime_data,num_bin) plt.xticks(range(min_runtime,max_runtime+5,5)) plt.show()
-



