栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

认识Hadoop

认识Hadoop

一.起源
  • 起源于搜索引擎
  • 08年成为apache的顶级项目
  • 09-12年 0.x-1.x快速发展,但是超大规模集群和HA等成为瓶颈
  • 13-17年 2.x快速发展,解决了超大集群和HA瓶颈
  • 17年至今 3.x快速发展,主要在提升执行效率(锦上添花)
二.架构 2.1核心组件

HDFS(存储),MapReduce(计算),yarn(任务调度)

2.2其他常用组件

Hbase,Hive,Zookeeper,Streaming

2.3架构

2.4组件介绍
  • HDFS
    • 分布式文件存储系统,高容错,高可用性,流式访问等特点
  • MapReduce
    • 分布式计算框架,现在一般不用这个了,已经由Spark等实时计算框架取代
  • yarn
    • 提供资源管理和任务调度的功能
  • Hbase
    • 基于列式的分布式数据库
  • Hive
    • 提供数据摘要和查询的数据仓库
  • Streaming
    • 解决非java程序员使用Hadoop的问题
  • Zookeeper
    • 分布式协同服务,主要解决分布式下数据管理问题
2.5分布式生态圈

三.Ambari平台

Ambari是基于Web的一个大数据管理平台,可以快速的帮助你搭建一个集群
同类产品CDH
优点:

  • 图形界面操作方便
  • 组件全
  • 社区资源丰富

缺点:

  • 有一些bug,但是一般重启就可以解决
  • 网慢的话安装会很慢

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/281479.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号