您可以用来
df.resample基于日期/时间变量进行汇总。您将需要一个datetime索引,并且可以在读取csv文件时指定该日期:
df = pd.read_csv("filename.csv", parse_dates = [["DATE", "TIME"]], index_col=0)这将导致一个具有索引的数据框,其中日期和时间被组合在一起(源):
df.head()Out[7]: OPEN HIGH LOW CLOSE VOLUME DATE_TIME 1997-02-03 09:04:00 3046.0 3048.5 3046.0 3047.5 5051997-02-03 09:05:00 3047.0 3048.0 3046.0 3047.0 1621997-02-03 09:06:00 3047.5 3048.0 3047.0 3047.5 981997-02-03 09:07:00 3047.5 3047.5 3047.0 3047.5 2281997-02-03 09:08:00 3048.0 3048.0 3047.5 3048.0 136
之后,您可以使用重新采样来获取这五分钟间隔的总和,平均值等。
df.resample("5T").mean()Out[8]: OPEN HIGH LOW CLOSE VOLUME DATE_TIME 1997-02-03 09:00:00 3046.0 3048.5 3046.0 3047.5 505.01997-02-03 09:05:00 3047.6 3047.9 3046.8 3047.3 159.61997-02-03 09:10:00 3045.6 3045.9 3044.8 3045.0 110.21997-02-03 09:15:00 3043.6 3044.0 3042.8 3043.2 69.21997-02-03 09:20:00 3044.7 3045.2 3044.5 3045.0 65.81997-02-03 09:25:00 3043.8 3044.0 3043.5 3043.7 59.01997-02-03 09:30:00 3044.6 3045.0 3044.3 3044.6 56.01997-02-03 09:35:00 3044.5 3044.5 3043.5 3044.5 44.0( T 用于分钟频率。这是其他单位的列表。)



