栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

pandas.qcut和pandas.cut有什么区别?

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

pandas.qcut和pandas.cut有什么区别?

首先,请注意,分位数只是百分位数,四分位数和中位数之类的最通用术语。在示例中,您指定了五个垃圾箱,因此您需要

qcut
五分位数。

因此,当您使用来请求五分位数时

qcut
,将选择箱位,以便每个箱位中的记录数相同。您有30条记录,因此每个bin中应有6条记录(您的输出应如下所示,尽管断点因随机抽取而有所不同):

pd.qcut(factors, 5).value_counts()[-2.578, -0.829]    6(-0.829, -0.36]     6(-0.36, 0.366]      6(0.366, 0.868]      6(0.868, 2.617]      6

相反,因为

cut
您会看到更加不均匀的东西:

pd.cut(factors, 5).value_counts()(-2.583, -1.539]    5(-1.539, -0.5]      5(-0.5, 0.539]       9(0.539, 1.578]      9(1.578, 2.617]      2

这是因为

cut
将根据值本身而不是这些值的 频率
来选择要均匀分布的垃圾箱。因此,由于您是从随机法线中提取的,因此您会看到内部垃圾箱中的频率更高,而外部垃圾箱中的频率更低。本质上,这将是直方图的表格形式(您会期望它具有30条记录的相当钟形)。



转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/617661.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号