1.压缩的好处和坏处及原则
压缩的优点：以减少磁盘IO、减少磁盘存储空间。

压缩的缺点：增加CPU开销。

压缩原则

（1）运算密集型的Job，少用压缩

（2）IO密集型的Job，多用压缩

2.MR支持的压缩编码

压缩格式

Hadoop自带？

算法

文件扩展名

是否可切片

换成压缩格式后，原来的程序是否需要修改

DEFLATE

是，直接使用

DEFLATE

.deflate

否

和文本处理一样，不需要修改

Gzip

是，直接使用

DEFLATE

.gz

否

和文本处理一样，不需要修改

bzip2

是，直接使用

bzip2

.bz2

是

和文本处理一样，不需要修改

LZO

否，需要安装

LZO

.lzo

是

需要建索引，还需要指定输入格式

Snappy

是，直接使用

Snappy

.snappy

否

和文本处理一样，不需要修改

3.压缩位置选择
压缩可以在MapReduce作用的任意阶段启用。

4.压缩参数配置
1）为了支持多种压缩/解压缩算法，Hadoop引入了编码/解码器

压缩格式

对应的编码/解码器

DEFLATE

org.apache.hadoop.io.compress.DefaultCodec

gzip

org.apache.hadoop.io.compress.GzipCodec

bzip2

org.apache.hadoop.io.compress.BZip2Codec

LZO

com.hadoop.compression.lzo.LzopCodec

Snappy

org.apache.hadoop.io.compress.SnappyCodec

2）要在Hadoop中启用压缩，可以配置如下参数

参数

默认值

阶段

建议

io.compression.codecs

（在core-site.xml中配置）

无，这个需要在命令行输入hadoop checknative查看

输入压缩

Hadoop使用文件扩展名判断是否支持某种编解码器

mapreduce.map.output.compress（在mapred-site.xml中配置）

false

mapper输出

这个参数设为true启用压缩

mapreduce.map.output.compress.codec（在mapred-site.xml中配置）

org.apache.hadoop.io.compress.DefaultCodec

mapper输出

企业多使用LZO或Snappy编解码器在此阶段压缩数据

mapreduce.output.fileoutputformat.compress（在mapred-site.xml中配置）

false

reducer输出

这个参数设为true启用压缩

mapreduce.output.fileoutputformat.compress.codec（在mapred-site.xml中配置）

org.apache.hadoop.io.compress.DefaultCodec

reducer输出

使用标准工具或者编解码器，如gzip和bzip2

5.压缩实操案例

（1）Map输出端采用压缩

即使你的MapReduce的输入输出文件都是未压缩的文件，你仍然可以对Map任务的中间结果输出做压缩，因为它要写在硬盘并且通过网络传输到Reduce节点，对其压缩可以提高很多性能，这些工作只要设置两个属性即可。只需要修改Driver类，以wordcount案例为基础。

最后的输出结果还是和原来一样，到reducer的时候已经解压了。

public class WordCountDriver {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        //1、获取job
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf);


        // 开启map端输出压缩
        conf.setBoolean("mapreduce.map.output.compress", true);

        // 设置map端输出压缩方式
        conf.setClass("mapreduce.map.output.compress.codec", BZip2Codec.class, CompressionCodec.class);

        //2、设置jar包路径
        job.setJarByClass(WordCountDriver.class);

        //3、关联mapper和reducer
        job.setMapperClass(WordCountMapper.class);
        job.setReducerClass(WordCountReducer.class);

        //4、设置map输出的kv类型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);

        //5、设置最终输出的kv类型（不一定是reducer的输出类型）
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        //6、设置输入路径和输出路径
        FileInputFormat.setInputPaths(job, new Path("D:\code\Hadoop\input\inputword"));
        FileOutputFormat.setOutputPath(job, new Path("D:\code\Hadoop\output6666"));


        //7、提交job
        boolean result = job.waitForCompletion(true);

        System.exit(result ? 0 : 1);
    }
}

（2）Reduce输出端采用压缩

map输出端和reduce输出端都采用压缩，压缩格式可以不一样，输出为reduce输出端使用的格式。

public class WordCountDriver {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        //1、获取job
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf);


        // 开启map端输出压缩
        conf.setBoolean("mapreduce.map.output.compress", true);

        // 设置map端输出压缩方式
        conf.setClass("mapreduce.map.output.compress.codec", BZip2Codec.class, CompressionCodec.class);

        //2、设置jar包路径
        job.setJarByClass(WordCountDriver.class);

        //3、关联mapper和reducer
        job.setMapperClass(WordCountMapper.class);
        job.setReducerClass(WordCountReducer.class);

        //4、设置map输出的kv类型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);

        //5、设置最终输出的kv类型（不一定是reducer的输出类型）
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        //6、设置输入路径和输出路径
        FileInputFormat.setInputPaths(job, new Path("D:\code\Hadoop\input\inputword"));
        FileOutputFormat.setOutputPath(job, new Path("D:\code\Hadoop\output6666"));

        // 设置reduce端输出压缩开启
        FileOutputFormat.setCompressOutput(job, true);

        // 设置压缩的方式
        FileOutputFormat.setOutputCompressorClass(job, BZip2Codec.class);
//	    FileOutputFormat.setOutputCompressorClass(job, GzipCodec.class);
//	    FileOutputFormat.setOutputCompressorClass(job, DefaultCodec.class);

        //7、提交job
        boolean result = job.waitForCompletion(true);

        System.exit(result ? 0 : 1);
    }
}

压缩格式	Hadoop自带？	算法	文件扩展名	是否可切片	换成压缩格式后，原来的程序是否需要修改
DEFLATE	是，直接使用	DEFLATE	.deflate	否	和文本处理一样，不需要修改
Gzip	是，直接使用	DEFLATE	.gz	否	和文本处理一样，不需要修改
bzip2	是，直接使用	bzip2	.bz2	是	和文本处理一样，不需要修改
LZO	否，需要安装	LZO	.lzo	是	需要建索引，还需要指定输入格式
Snappy	是，直接使用	Snappy	.snappy	否	和文本处理一样，不需要修改

压缩格式	对应的编码/解码器
DEFLATE	org.apache.hadoop.io.compress.DefaultCodec
gzip	org.apache.hadoop.io.compress.GzipCodec
bzip2	org.apache.hadoop.io.compress.BZip2Codec
LZO	com.hadoop.compression.lzo.LzopCodec
Snappy	org.apache.hadoop.io.compress.SnappyCodec

参数	默认值	阶段	建议
io.compression.codecs （在core-site.xml中配置）	无，这个需要在命令行输入hadoop checknative查看	输入压缩	Hadoop使用文件扩展名判断是否支持某种编解码器
mapreduce.map.output.compress（在mapred-site.xml中配置）	false	mapper输出	这个参数设为true启用压缩
mapreduce.map.output.compress.codec（在mapred-site.xml中配置）	org.apache.hadoop.io.compress.DefaultCodec	mapper输出	企业多使用LZO或Snappy编解码器在此阶段压缩数据
mapreduce.output.fileoutputformat.compress（在mapred-site.xml中配置）	false	reducer输出	这个参数设为true启用压缩
mapreduce.output.fileoutputformat.compress.codec（在mapred-site.xml中配置）	org.apache.hadoop.io.compress.DefaultCodec	reducer输出	使用标准工具或者编解码器，如gzip和bzip2

Hadoop数据压缩

1.压缩的好处和坏处及原则 压缩的优点：以减少磁盘IO、减少磁盘存储空间。 压缩的缺点：增加CPU开销。 压缩原则 （1）运算密集型的Job，少用压缩 （2）IO密集型的Job，多用压缩

3.压缩位置选择 压缩可以在MapReduce作用的任意阶段启用。

5.压缩实操案例

大数据系统相关栏目本月热门文章

1.压缩的好处和坏处及原则
压缩的优点：以减少磁盘IO、减少磁盘存储空间。

压缩的缺点：增加CPU开销。

压缩原则

（1）运算密集型的Job，少用压缩

（2）IO密集型的Job，多用压缩

3.压缩位置选择
压缩可以在MapReduce作用的任意阶段启用。