栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

Hadoop数据压缩

Hadoop数据压缩

Hadoop数据压缩

概述

优点:以减少磁盘IO,减少磁盘储存空间缺点:增加CPU开销

压缩原则

运算密集型的·Job,少用压缩IO密集型的Job,多用压缩

MR支持的压缩编码

压缩算法对比介绍
压缩性能的比较

压缩方式选择

压缩方式选择时重点考虑:压缩、解压缩速度、压缩率(压缩后储存大小)、压缩后是否可以支持切片Gzip压缩

优点:压缩率比较高缺点:不支持切片,压缩、解压缩速度一般 Bzip2压缩

优点:压缩率高,支持切片缺点:压缩/解压缩速度慢 Lzo压缩

优点:压缩/解压缩速度比较快,支持切片缺点:压缩速率一般,想支持切片需要额外创建索引 Snappy压缩

优点:压缩和解压缩速度快缺点:不支持切片,压缩率一般

压缩位置选择

压缩可以在MapReduce作用的任意阶段启用

压缩参数配置

为了支持多种压缩/解压缩算法,Hadoop引入编码和解码器

要在Hadoop中启用压缩,可以配置如下参数

注意:

即使你的MapReduce的输出输入文件都是为压缩的文件,你仍然可以对Map任务的中间结果输出做出压缩,因为它要写在硬盘并且通过网络传输到Reduce节点,对其压缩可以提高很多性能。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/762070.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号