Hadoop生态系统（二）

Hadoop生态系统还包括Zookeeper，Hbase，Hive，Pig，Mahout，Flume，Sqoop，Ambari等功能组件。

4.Hive

Hive是一个基于Hadoop的数据仓库工具，用于对Hadoop文件中的数据进行数据整理，特殊查询和分析存储。

它提供了类似于数据库SQL的查询语言——Hive QL，其语句可以快速实现简单的MapReduce任务，hive自身可以将HiveQL语句转换为mapReduce任务运行，不必开发专门的MapReduce应用

5.Pig

pig是一种数据流语言和运行环境适合于使用Hadoop和MapReduve平台来查询大型半结构化数据集。

pig的出现，大大简化了Hadoop常见的工作任务，在Map Reduce的基础上创建了更简单抽象的过程语言，为Hadoop应用程序，提供了一种更加接近结构查询语言的接口。

pig是一种相对简单的语言，可以执行语句。从大型数据集中搜索某个满足给定搜索条件的记录时，pig要不mapreduce具有明显的优势，前者只需要编写一个简单的脚本在集群中自动并行处理与分发，后者则需要编写一个单独的Map Reduce应用程序。

6.Mahout

Mahout，提供一些可扩展的机器学习领域经典算法的实现，帮助开发人员方便快捷的创建智能应用项目。

其包含许多实现，：聚类，分类，推荐过滤，频繁子挖掘等。

用过使用Apache Hadoop库，可以有效的扩展到云中。

7.ZooKeeper

zookeeper是针对谷歌Chubby的一个开源实现，高效和可靠的协同工作系统，提供分布式锁之类的基本服务（如统一命名服务，状态同步服务，集群管理，分布式应用配置置顶的管理等）

用于构建分布式应用，减轻分布式应用程序所承担的协调任务。

8.Flume

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集，聚合和传输的系统

Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，提供对数据进行简单处理并写到各种数据接收方的能力

9.Sqoop

Sqoop是SQL-to-Hadoop的缩写，主要用来HAdoop和关系数据库之间的交换数据，可以改进数据的互操作性。

通过Sqoop可以方便的将数据从MySQL，Oracle，PostgreSQL等关系数据库中导入Hadoop（可导入HDFS，Hbase或Hive），或者将数据从Hadoop导出关系数据库，使传统数据库和Hadoop之间的数据迁移变得非常方便。

Sqoop是专门为大数据集设计的，支持增量更新，可以将新记录添加到最近一次导出的数据源上，或者指定上次修改的时间戳。

10.Ambari

Apache Ambari是一种基于web的工具，支持Apache Hadoop集群的安装，部署，配置和管理，其目前支持大多数Hadoop组件