栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

在Pandas MultiIndex中重新采样

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

在Pandas MultiIndex中重新采样

pd.Grouper

允许您指定“目标对象的groupby指令”。特别是,即使
df.index
不是,您也可以使用它按日期分组
DatetimeIndex

df.groupby(pd.Grouper(freq='2D', level=-1))

level=-1
讲述
pd.Grouper
寻找在多指标的最后一个级别的日期。此外,您可以将其与索引中的其他级别值结合使用:

level_values = df.index.get_level_valuesresult = (df.groupby([level_values(i) for i in [0,1]]+[pd.Grouper(freq='2D', level=-1)]).sum())

它看起来有些尴尬,但

using_Grouper
比我最初的建议要快得多
using_reset_index

import numpy as npimport pandas as pdimport datetime as DTdef using_Grouper(df):    level_values = df.index.get_level_values    return (df.groupby([level_values(i) for i in [0,1]] +[pd.Grouper(freq='2D', level=-1)]).sum())def using_reset_index(df):    df = df.reset_index(level=[0, 1])    return df.groupby(['State','City']).resample('2D').sum()def using_stack(df):    # http://stackoverflow.com/a/15813787/190597    return (df.unstack(level=[0,1])   .resample('2D').sum()   .stack(level=[2,1])   .swaplevel(2,0))def make_orig():    values_a = range(16)    values_b = range(10, 26)    states = ['Georgia']*8 + ['Alabama']*8    cities = ['Atlanta']*4 + ['Savanna']*4 + ['Mobile']*4 + ['Montgomery']*4    dates = pd.DatetimeIndex([DT.date(2012,1,1)+DT.timedelta(days = i) for i in range(4)]*4)    df = pd.Dataframe(        {'value_a': values_a, 'value_b': values_b},        index = [states, cities, dates])    df.index.names = ['State', 'City', 'Date']    return dfdef make_df(N):    dates = pd.date_range('2000-1-1', periods=N)    states = np.arange(50)    cities = np.arange(10)    index = pd.MultiIndex.from_product([states, cities, dates],       names=['State', 'City', 'Date'])    df = pd.Dataframe(np.random.randint(10, size=(len(index),2)), index=index,columns=['value_a', 'value_b'])    return dfdf = make_orig()print(using_Grouper(df))

产量

         value_a  value_bState   City       Date  Alabama Mobile     2012-01-01       17       37        2012-01-03       21       41        Montgomery 2012-01-01       25       45        2012-01-03       29       49Georgia Atlanta    2012-01-01        1       21        2012-01-03        5       25        Savanna    2012-01-01        9       29        2012-01-03       13       33

这里是一个标杆比较

using_Grouper
using_reset_index
using_stack
在一个有5000行数据帧:

In [30]: df = make_df(10)In [34]: len(df)Out[34]: 5000In [32]: %timeit using_Grouper(df)100 loops, best of 3: 6.03 ms per loopIn [33]: %timeit using_stack(df)10 loops, best of 3: 22.3 ms per loopIn [31]: %timeit using_reset_index(df)1 loop, best of 3: 659 ms per loop


转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/640864.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号