概述
优点:以减少磁盘IO,减少磁盘储存空间缺点:增加CPU开销
压缩原则
运算密集型的·Job,少用压缩IO密集型的Job,多用压缩
MR支持的压缩编码
压缩算法对比介绍
压缩性能的比较
压缩方式选择
压缩方式选择时重点考虑:压缩、解压缩速度、压缩率(压缩后储存大小)、压缩后是否可以支持切片Gzip压缩
优点:压缩率比较高缺点:不支持切片,压缩、解压缩速度一般 Bzip2压缩
优点:压缩率高,支持切片缺点:压缩/解压缩速度慢 Lzo压缩
优点:压缩/解压缩速度比较快,支持切片缺点:压缩速率一般,想支持切片需要额外创建索引 Snappy压缩
优点:压缩和解压缩速度快缺点:不支持切片,压缩率一般
压缩位置选择
压缩可以在MapReduce作用的任意阶段启用
压缩参数配置
为了支持多种压缩/解压缩算法,Hadoop引入编码和解码器
要在Hadoop中启用压缩,可以配置如下参数
注意:
即使你的MapReduce的输出输入文件都是为压缩的文件,你仍然可以对Map任务的中间结果输出做出压缩,因为它要写在硬盘并且通过网络传输到Reduce节点,对其压缩可以提高很多性能。



