注意是读入上一章清晰后的CSV的文件
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
dataset = pd.read_csv('household_power_consumption.csv', header=0,
infer_datetime_format=True, engine='c',
parse_dates=['datetime'], index_col=['datetime'])
二,数据细粒度小时化
前面的数据是以分钟为单位的,所有需要将时间整合为以小时为单位的值:
hour_data = dataset.resample('H').sum()
hour_data.head(10)
并检查数据的质量
#查看缺失值 hour_data.isna().sum()
转换好的数据没有问题后可以进行保存成新的.csv。由于考虑到数据量大的问题,先拿总的有功公功率的数据进行后面的预测。首先将有功功率进行保存。



