4.Hive
Hive是一个基于Hadoop的数据仓库工具,用于对Hadoop文件中的数据进行数据整理,特殊查询和分析存储。
它提供了类似于数据库SQL的查询语言——Hive QL,其语句可以快速实现简单的MapReduce任务,hive自身可以将HiveQL语句转换为mapReduce任务运行,不必开发专门的MapReduce应用
5.Pig
pig是一种数据流语言和运行环境适合于使用Hadoop和MapReduve平台来查询大型半结构化数据集。
pig的出现,大大简化了Hadoop常见的工作任务,在Map Reduce的基础上创建了更简单抽象的过程语言,为Hadoop应用程序,提供了一种更加接近结构查询语言的接口。
pig是一种相对简单的语言,可以执行语句。从大型数据集中搜索某个满足给定搜索条件的记录时,pig要不mapreduce具有明显的优势,前者只需要编写一个简单的脚本在集群中自动并行处理与分发,后者则需要编写一个单独的Map Reduce应用程序。
6.Mahout
Mahout,提供一些可扩展的机器学习领域经典算法的实现,帮助开发人员方便快捷的创建智能应用项目。
其包含许多实现,:聚类,分类,推荐过滤,频繁子挖掘等。
用过使用Apache Hadoop库,可以有效的扩展到云中。
7.ZooKeeper
zookeeper是针对谷歌Chubby的一个开源实现,高效和可靠的协同工作系统,提供分布式锁之类的基本服务(如统一命名服务,状态同步服务,集群管理,分布式应用配置置顶的管理等)
用于构建分布式应用,减轻分布式应用程序所承担的协调任务。
8.Flume
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集,聚合和传输的系统
Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,提供对数据进行简单处理并写到各种数据接收方的能力
9.Sqoop
Sqoop是SQL-to-Hadoop的缩写,主要用来HAdoop和关系数据库之间的交换数据,可以改进数据的互操作性。
通过Sqoop可以方便的将数据从MySQL,Oracle,PostgreSQL等关系数据库中导入Hadoop(可导入HDFS,Hbase或Hive),或者将数据从Hadoop导出关系数据库,使传统数据库和Hadoop之间的数据迁移变得非常方便。
Sqoop是专门为大数据集设计的,支持增量更新,可以将新记录添加到最近一次导出的数据源上,或者指定上次修改的时间戳。
10.Ambari
Apache Ambari是一种基于web的工具,支持Apache Hadoop集群的安装,部署,配置和管理,其目前支持大多数Hadoop组件



