栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

spark 等频 等宽 分箱的一个小问题

spark 等频 等宽 分箱的一个小问题

文章大纲
  • spark 等频 等宽 分箱 数据量较少时的现象
  • 分箱编号不同的原因剖析
    • 等频分箱当分箱数量 多于 实际出现的数据
      • 第一步: 计算分箱拆分区间
      • 第二步:重新计算,去重
      • 第三步:计算结果
    • 等频分箱当分箱数量 少于 实际出现的数据
  • 参考文献


spark 等频 等宽 分箱 数据量较少时的现象

这里有一个很有趣的问题,当分箱数比较少 ,少于数据个数时候,等频分箱箱子编号是从0开始的。

当分箱数比较多的时候,多于数据数量,箱子编号是从1 开始编号的

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/699574.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号