复习：pandas数据预处理

Part_1 合并数据

#1.堆叠合并数据——concat函数

#1.1 横向表堆叠

df1=detail.iloc[:,:10]
df2=detail.iloc[:,:10]
print(df1.shape,df2.shape)    #查看合并前的shape

pd.concat([df1,df2],axis=0,join='inner')    #内连接
pd.concat([df1,df2],axis=0,join='outer')    #外连接


#1.2 纵向表堆叠

pd.concat([df1,df2],axis=1,join='inner')    #使用concat，内连接
pd.concat([df1,df2],axis=1,join='outer')    #使用concat，外连接

df1.append(df2)    #使用append方法需要列名完全一致
df3=pd.append(df1,df2)




#2.主键合并数据

df3=pd.merge(df1,df2,how='inner',left_on='key1',right_on='key2')    #merge函数

df3=pd.join(df1,df2,how='left')    #join方法：how='left'/'right'/'inner'/'outer'
df3=df1.join(df2,on='key',rsuffix='1')




#3. 重叠合并数据——combine_first方法

df3=df1.combine_first(df2)

PART_2 清洗数据

#1. 检测与处理重复值

#1.1 记录重复

#“创建list+循环”
#利用set的元素唯一性，或者
pd.drop_duplicates(df1,keep='first',inplace='False')
df4=df1['a'].drop_duplicates


#1.2 特征重复

df4=df1['a','b'].corr(method='kendall')    #构建相似度矩阵，method='pearson'/'spearson'/'kendall'



#2. 检测与处理缺失值

#利用isnull或notnull找到缺失值
detail.isnull().sum()
detail.notnull().sum()

#删除
detail.dropna(axis=0,how='any')    #how='any'有一个缺失就删除/'all'全缺失才删除

#替换
detail.fillna(0)

#线性插值
detail.interld(x,y,kind='linear')

#拉格朗日插值
lagvalue=lagrange(x,y)




#3. 检测与处理异常值

# 3sigma
# 箱线图

PART_3 标准化数据

自定义函数标准化：离差标准化、小数定标标准化

PART_4 转换数据

#1. 哑变量处理——get_dummies函数

dummy_detail=get_dummies(detail)

#2. 离散化连续型数据

#等宽法
price=pd.cut(detail['a'],5)

#等频法：自定义函数

复习：pandas数据预处理

Python相关栏目本月热门文章