栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

Hadoop生态系统(二)

Hadoop生态系统(二)

Hadoop生态系统还包括Zookeeper,Hbase,Hive,Pig,Mahout,Flume,Sqoop,Ambari等功能组件。

4.Hive

Hive是一个基于Hadoop的数据仓库工具,用于对Hadoop文件中的数据进行数据整理,特殊查询和分析存储。

它提供了类似于数据库SQL的查询语言——Hive QL,其语句可以快速实现简单的MapReduce任务,hive自身可以将HiveQL语句转换为mapReduce任务运行,不必开发专门的MapReduce应用

5.Pig

pig是一种数据流语言和运行环境适合于使用Hadoop和MapReduve平台来查询大型半结构化数据集。

pig的出现,大大简化了Hadoop常见的工作任务,在Map Reduce的基础上创建了更简单抽象的过程语言,为Hadoop应用程序,提供了一种更加接近结构查询语言的接口。

pig是一种相对简单的语言,可以执行语句。从大型数据集中搜索某个满足给定搜索条件的记录时,pig要不mapreduce具有明显的优势,前者只需要编写一个简单的脚本在集群中自动并行处理与分发,后者则需要编写一个单独的Map Reduce应用程序。

6.Mahout

Mahout,提供一些可扩展的机器学习领域经典算法的实现,帮助开发人员方便快捷的创建智能应用项目。

其包含许多实现,:聚类,分类,推荐过滤,频繁子挖掘等。

用过使用Apache Hadoop库,可以有效的扩展到云中。

7.ZooKeeper

zookeeper是针对谷歌Chubby的一个开源实现,高效和可靠的协同工作系统,提供分布式锁之类的基本服务(如统一命名服务,状态同步服务,集群管理,分布式应用配置置顶的管理等)

用于构建分布式应用,减轻分布式应用程序所承担的协调任务。

8.Flume

Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集,聚合和传输的系统

Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,提供对数据进行简单处理并写到各种数据接收方的能力

9.Sqoop

Sqoop是SQL-to-Hadoop的缩写,主要用来HAdoop和关系数据库之间的交换数据,可以改进数据的互操作性。

通过Sqoop可以方便的将数据从MySQL,Oracle,PostgreSQL等关系数据库中导入Hadoop(可导入HDFS,Hbase或Hive),或者将数据从Hadoop导出关系数据库,使传统数据库和Hadoop之间的数据迁移变得非常方便。

Sqoop是专门为大数据集设计的,支持增量更新,可以将新记录添加到最近一次导出的数据源上,或者指定上次修改的时间戳。

10.Ambari

Apache Ambari是一种基于web的工具,支持Apache Hadoop集群的安装,部署,配置和管理,其目前支持大多数Hadoop组件

 

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/752756.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号