栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

复习:pandas数据预处理

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

复习:pandas数据预处理

Part_1 合并数据

#1.堆叠合并数据——concat函数

#1.1 横向表堆叠

df1=detail.iloc[:,:10]
df2=detail.iloc[:,:10]
print(df1.shape,df2.shape)    #查看合并前的shape

pd.concat([df1,df2],axis=0,join='inner')    #内连接
pd.concat([df1,df2],axis=0,join='outer')    #外连接


#1.2 纵向表堆叠

pd.concat([df1,df2],axis=1,join='inner')    #使用concat,内连接
pd.concat([df1,df2],axis=1,join='outer')    #使用concat,外连接

df1.append(df2)    #使用append方法需要列名完全一致
df3=pd.append(df1,df2)




#2.主键合并数据

df3=pd.merge(df1,df2,how='inner',left_on='key1',right_on='key2')    #merge函数

df3=pd.join(df1,df2,how='left')    #join方法:how='left'/'right'/'inner'/'outer'
df3=df1.join(df2,on='key',rsuffix='1')




#3. 重叠合并数据——combine_first方法

df3=df1.combine_first(df2)

PART_2 清洗数据

#1. 检测与处理重复值

#1.1 记录重复

#“创建list+循环”
#利用set的元素唯一性,或者
pd.drop_duplicates(df1,keep='first',inplace='False')
df4=df1['a'].drop_duplicates


#1.2 特征重复

df4=df1['a','b'].corr(method='kendall')    #构建相似度矩阵,method='pearson'/'spearson'/'kendall'



#2. 检测与处理缺失值

#利用isnull或notnull找到缺失值
detail.isnull().sum()
detail.notnull().sum()

#删除
detail.dropna(axis=0,how='any')    #how='any'有一个缺失就删除/'all'全缺失才删除

#替换
detail.fillna(0)

#线性插值
detail.interld(x,y,kind='linear')

#拉格朗日插值
lagvalue=lagrange(x,y)




#3. 检测与处理异常值

# 3sigma
# 箱线图

PART_3 标准化数据

自定义函数标准化:离差标准化、小数定标标准化

PART_4 转换数据

#1. 哑变量处理——get_dummies函数

dummy_detail=get_dummies(detail)

#2. 离散化连续型数据

#等宽法
price=pd.cut(detail['a'],5)

#等频法:自定义函数

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/829698.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号