首先,请注意,分位数只是百分位数,四分位数和中位数之类的最通用术语。在示例中,您指定了五个垃圾箱,因此您需要
qcut五分位数。
因此,当您使用来请求五分位数时
qcut,将选择箱位,以便每个箱位中的记录数相同。您有30条记录,因此每个bin中应有6条记录(您的输出应如下所示,尽管断点因随机抽取而有所不同):
pd.qcut(factors, 5).value_counts()[-2.578, -0.829] 6(-0.829, -0.36] 6(-0.36, 0.366] 6(0.366, 0.868] 6(0.868, 2.617] 6
相反,因为
cut您会看到更加不均匀的东西:
pd.cut(factors, 5).value_counts()(-2.583, -1.539] 5(-1.539, -0.5] 5(-0.5, 0.539] 9(0.539, 1.578] 9(1.578, 2.617] 2
这是因为
cut将根据值本身而不是这些值的 频率
来选择要均匀分布的垃圾箱。因此,由于您是从随机法线中提取的,因此您会看到内部垃圾箱中的频率更高,而外部垃圾箱中的频率更低。本质上,这将是直方图的表格形式(您会期望它具有30条记录的相当钟形)。



