栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

hadoop基本知识

hadoop基本知识

目录

一:概念

1:Apache基金会(开源,公开,不要钱,能看到源码)

2:服务器(节点)

3:机架

二:hadoop概述(实现其他例如 hbase hive等的平台)

三:hadoop组件介绍

四:hadoop版本介绍


一:概念

1:Apache基金会(开源,公开,不要钱,能看到源码)

是专门为支持开源软件项目而办的一个非盈利性组织

2:服务器(节点)

可以理解为我们的一台笔记本/台式机

在这里可以认为是我们的一台虚拟机

后面学习中,我们会把一台服务器称为一个节点

(企业里任务和程序基本都是运行在服务器上。

服务器内存和cpu以及硬盘等资源和性能远高于pc机)

可以安装的硬盘比机器多得多。

3:机架

负责存放服务器的架子

可以理解为鞋架

(一个公司里,会有很多服务器。尤其是hadoop集群大到上千台服务器搭建成集群)

二:hadoop概述(实现其他例如 hbase hive等的平台)

(1:Hadoop是一个适合海量数据的分布式存储和分布式计算的平台。

存储消耗硬盘 计算消耗cpu和内存 可以管理硬盘和cpu 内存

分布式存储:将一个很大的数据进行切分然后分别存储在各个节点。

分布式计算:在不同的节点单独计算然后进行合并。

(2:作者Doug Cutting 受Google三篇论文的启发,开发了hadoop。(2.0之前还没有yarn)

Google FS 文件管理系统 filesystem

MapReduce 分布式管理框架

BigTable 大表

三:hadoop组件介绍

hadoop是一个统称,目前hadoop主要包含三大组件

hdfs:是一个分布式存储框架,适合海量数据存储

mapreduce:是一个分布式计算框架,适合海量数据计算

yarn:是一个资源调度平台,负责给计算框架分配计算资源(2.0才有)

四:hadoop版本介绍

目前,hadoop已经演变为大数据计算的代名词,形成了一套完善的大数据计算的生态系统,所以针对hadoop也出现了很多版本

Apache hadoop(所用的版本)

官方版本

Cloudera hadoop(CDH)

使用下载最多的版本,稳定,有商业支持(收费),在Apache的基础上打上了一些patch。推荐使用。

HortonWorks(HDP)

基于Apache的版本进行了集成,结合Ambari可以实现平台化快速安装部署。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/654111.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号