# 导入第三方模块
import pandas as pd
# 读入数据
Titanic = pd.read_csv(r'test.csv')
Titanic.head()
# 删除无意义的变量,并检查剩余自字是否含有缺失值
Titanic.drop(['a','b','c','d'], axis = 1, inplace = True)
Titanic.isnull().sum(axis = 0)
#筛选符合条件的值
value = Titanic[(Titanic.a =='male')&(Titanic.b.isnull())] 写判断条件
print(pd.Dataframe(value))
#按条件删除空值行,inplace表示是否修改原始值
Titanic.dropna(subset=['A'], inplace = True)
print(Titanic)
# 填充各组中的缺失数据
a=value.fillna(value = {'A': Titanic.A[Titanic.b == 'male'].mean()}, inplace = True)
#合并数据
df=[value,Titanic]
result=pd.concat(df)
# 将数值型的转换为类别型,否则无法对其哑变量处理
Titanic.P = Titanic.P.astype('category')
# 哑变量处理
dummy = pd.get_dummies(Titanic[['S','E','P']])



