栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

熊猫填写组中缺少的日期和值

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

熊猫填写组中缺少的日期和值

初始数据框:

 dt  user    val0   2016-01-01     a      11   2016-01-02     a     332   2016-01-05     b      23   2016-01-06     b      1

首先,将日期转换为日期时间:

x['dt'] = pd.to_datetime(x['dt'])

然后,生成日期和唯一用户:

dates = x.set_index('dt').resample('D').asfreq().index>> DatetimeIndex(['2016-01-01', '2016-01-02', '2016-01-03', '2016-01-04',    '2016-01-05', '2016-01-06'],   dtype='datetime64[ns]', name='dt', freq='D')users = x['user'].unique()>> array(['a', 'b'], dtype=object)

这将允许您创建一个MultiIndex:

idx = pd.MultiIndex.from_product((dates, users), names=['dt', 'user'])>> MultiIndex(levels=[[2016-01-01 00:00:00, 2016-01-02 00:00:00, 2016-01-03 00:00:00, 2016-01-04 00:00:00, 2016-01-05 00:00:00, 2016-01-06 00:00:00], ['a', 'b']],labels=[[0, 0, 1, 1, 2, 2, 3, 3, 4, 4, 5, 5], [0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1]],names=['dt', 'user'])

您可以使用它来重新索引您的Dataframe:

x.set_index(['dt', 'user']).reindex(idx, fill_value=0).reset_index()Out: dt user  val0  2016-01-01    a    11  2016-01-01    b    02  2016-01-02    a   333  2016-01-02    b    04  2016-01-03    a    05  2016-01-03    b    06  2016-01-04    a    07  2016-01-04    b    08  2016-01-05    a    09  2016-01-05    b    210 2016-01-06    a    011 2016-01-06    b    1

然后可以按用户排序:

x.set_index(['dt', 'user']).reindex(idx, fill_value=0).reset_index().sort_values(by='user')Out: dt user  val0  2016-01-01    a    12  2016-01-02    a   334  2016-01-03    a    06  2016-01-04    a    08  2016-01-05    a    010 2016-01-06    a    01  2016-01-01    b    03  2016-01-02    b    05  2016-01-03    b    07  2016-01-04    b    09  2016-01-05    b    211 2016-01-06    b    1


转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/636857.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号