栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

pandas相关Groupby

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

pandas相关Groupby

您几乎已经弄清楚了所有部分,只需将它们结合起来即可:

>>> df.groupby('ID')[['Val1','Val2']].corr()  Val1      Val2ID   A  Val1  1.000000  0.500000   Val2  0.500000  1.000000B  Val1  1.000000  0.385727   Val2  0.385727  1.000000

在您的情况下,为每个ID打印2x2过于冗长。我看不到打印标量相关性而不是整个矩阵的选项,但是如果您只有两个变量,则可以执行以下简单操作:

>>> df.groupby('ID')[['Val1','Val2']].corr().iloc[0::2,-1]ID       A   Val1    0.500000B   Val1    0.385727

对于3个以上变量的更一般的情况

对于3个或更多的变量,创建简洁的输出并不容易,但是您可以执行以下操作:

groups = list('Val1', 'Val2', 'Val3', 'Val4')df2 = pd.Dataframe()for i in range( len(groups)-1):     df2 = df2.append( df.groupby('ID')[groups].corr().stack()  .loc[:,groups[i],groups[i+1]:].reset_index() )df2.columns = ['ID', 'v1', 'v2', 'corr']df2.set_index(['ID','v1','v2']).sort_index()

请注意,如果没有该

groupby
元素,则可以直接使用numpy中的上三角或下三角函数。但是由于存在该元素,据我所知,以更优雅的方式生成简洁的输出并不容易。



转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/651156.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号