栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

Hadoop-MapReduce 调优(生产经验)

Hadoop-MapReduce 调优(生产经验)

文章目录
  • Hadoop-MapReduce 生产经验
    • 1 MapReduce 跑的慢的原因
      • 1.1 计算机性能
      • 1.2 I/O 操作优化
    • 2 MapReduce 常用调优参数
      • 2.1 优化1
      • 2.1 优化2
    • 3 MapReduce 数据倾斜问题
      • 3.1 常见现象
      • 3.2 减少数据倾斜的方法

Hadoop-MapReduce 生产经验 1 MapReduce 跑的慢的原因 1.1 计算机性能

CPU、内存、磁盘、网络

1.2 I/O 操作优化
  1. 数据倾斜
  2. Map 运行时间太长,导致 Reduce 等待过久
  3. 小文件过多
2 MapReduce 常用调优参数 2.1 优化1

2.1 优化2

3 MapReduce 数据倾斜问题 3.1 常见现象
  1. 数据频率倾斜——某一个区域的数据量要远远大于其他区域。
  2. 数据大小倾斜——部分记录的大小远远大于平均值。
3.2 减少数据倾斜的方法
  1. 首先检查是否空值过多造成的数据倾斜
    生产环境,可以直接过滤掉空值;如果想保留空值,就自定义分区,将空值加随机数打散。最后再二次聚合。
  2. 能在 map 阶段提前处理,最好先在 Map 阶段处理。如:Combiner、MapJoin
  3. 设置多个 reduce 个数
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/342563.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号