#使用pandas预处理原数据,并将原始数据转换成张量的格式
#pandas软件包是Python中常用的数据分析工具中,pandas可以与张量兼容
#用pandas处理缺失的数据时,我们可根据情况选择用插值法和删除法
import os
os.makedirs(os.path.join('..','data'),exist_ok = True)
data_file = os.path.join('..','data','house_tiny.csv')
with open(data_file,'w') as f:
f.write('NumRooms,Alley,Pricen') # 列名
f.write('NA,Pave,127500n') # 每行表示一个数据样本
f.write('2,NA,106000n')
f.write('4,NA,178100n')
f.write('NA,NA,140000n')
import pandas as pd
data = pd.read_csv(data_file)
print(data)
inputs,outputs = data.iloc[:,0:2], data.iloc[:,2]
inputs = inputs.fillna(inputs.mean())
print(inputs)
inputs = pd.get_dummies(inputs, dummy_na=True) #input类别类或者离散类 ,自动将类型划分成两类
print(inputs)
import torch
#当inputs and outputs所有的条目都是数值类型,就可以将其转换成张量格式
x, y = torch.tensor(inputs.values), torch.tensor(outputs.values)
print(x,y)