栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

MapReduce的数据压缩

MapReduce的数据压缩

MapReduce进行数据压缩

压缩方式有snappy、lzo、bzip2等

为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器

压缩格式对应的编码/解码器
DEFLATEorg.apache.hadoop.io.compress.DefaultCodec
gziporg.apache.hadoop.io.compress.GzipCodec
bzip2org.apache.hadoop.io.compress.BZip2Codec
LZOcom.hadoop.compression.lzo.LzopCodec
Snappyorg.apache.hadoop.io.compress.SnappyCodec

压缩性能的比较:

压缩算法原始文件大小压缩文件大小压缩速度解压速度
gzip8.3GB1.8GB17.5MB/s58MB/s
bzip28.3GB1.1GB2.4MB/s9.5MB/s
LZO8.3GB2.9GB49.3MB/s74.6MB/s

MapReduce的主要压缩过程主要有三个阶段

map之前:要考虑数据量的大小,数据量小的,就不需要考虑过多的切片,主要追求的是快速,可以选择压缩方式snappy或者lzo。数据量大的话,考虑到切片,可以选择lzo或者bzip2

map之后:map之后的数据要经历reduce聚合,主要考虑速度,所以选择snappy或者lzo

reduce之后:需要看具体的需求,类似于持久保存,那就需要看数据量的大小,数据量小的,就不需要考虑过多的切片,主要追求的是快速,可以选择压缩方式snappy或者lzo。数据量大的话,考虑到切片,可以选择lzo或者bzip2

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/583551.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号