Part_1 合并数据
#1.堆叠合并数据——concat函数 #1.1 横向表堆叠 df1=detail.iloc[:,:10] df2=detail.iloc[:,:10] print(df1.shape,df2.shape) #查看合并前的shape pd.concat([df1,df2],axis=0,join='inner') #内连接 pd.concat([df1,df2],axis=0,join='outer') #外连接 #1.2 纵向表堆叠 pd.concat([df1,df2],axis=1,join='inner') #使用concat,内连接 pd.concat([df1,df2],axis=1,join='outer') #使用concat,外连接 df1.append(df2) #使用append方法需要列名完全一致 df3=pd.append(df1,df2) #2.主键合并数据 df3=pd.merge(df1,df2,how='inner',left_on='key1',right_on='key2') #merge函数 df3=pd.join(df1,df2,how='left') #join方法:how='left'/'right'/'inner'/'outer' df3=df1.join(df2,on='key',rsuffix='1') #3. 重叠合并数据——combine_first方法 df3=df1.combine_first(df2)
PART_2 清洗数据
#1. 检测与处理重复值 #1.1 记录重复 #“创建list+循环” #利用set的元素唯一性,或者 pd.drop_duplicates(df1,keep='first',inplace='False') df4=df1['a'].drop_duplicates #1.2 特征重复 df4=df1['a','b'].corr(method='kendall') #构建相似度矩阵,method='pearson'/'spearson'/'kendall' #2. 检测与处理缺失值 #利用isnull或notnull找到缺失值 detail.isnull().sum() detail.notnull().sum() #删除 detail.dropna(axis=0,how='any') #how='any'有一个缺失就删除/'all'全缺失才删除 #替换 detail.fillna(0) #线性插值 detail.interld(x,y,kind='linear') #拉格朗日插值 lagvalue=lagrange(x,y) #3. 检测与处理异常值 # 3sigma # 箱线图
PART_3 标准化数据
自定义函数标准化:离差标准化、小数定标标准化
PART_4 转换数据
#1. 哑变量处理——get_dummies函数 dummy_detail=get_dummies(detail) #2. 离散化连续型数据 #等宽法 price=pd.cut(detail['a'],5) #等频法:自定义函数



