栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

第一章:Hadoop是什么?

第一章:Hadoop是什么?

1.Hadoop介绍

Hadoop狭义上是指一款用java语言实现,开源允许用户简单的编程模式实现跨机器集群对海量数据进行分布式计算处理。

Hadoop核心组件:

Hadoop HDFS(分布式文件存储系统):解决海量数据存储;Hadoop YARN(集群资源管理和任务调度):解决资源任务调度;Hadoop MapReduce(分布式计算框架):解决海量数据计算;

Hadoop广义上是指围绕Hadoop打造的大数据生态圈

Hadoop现状

HDFS作为分布式文件存储系统,处于生态圈底层和核心地位;YARN作为分布式通过的集群资源管理系统和任务调度平台,支持各种计算引擎允许,保证了Hadoop地位;MapReduance作为第一代分布式计算引擎,由于自身设计模式所产生的弊端,导致企业一线 几乎不直接使用MapReduce进行编程处理。

Hadoop特性优点

扩容能力强:Hadoop在可用的计算机集群间分配数据并完成计算任务;成本低:可以通过部署廉价的机器组成集群处理大数据。效率高:通过并发数据,Hadoop可以在节点之间动态并行的运动数据,使得速度非常快。可靠性:可以自动维护数据的多份赋值,并且在任务失败后能自动地重新部署计算任务。

分布式与集群两个不同概念:

分布式:多台机器,每台机器上部署不同组件
集群式:多台机器,每台机器上部署相同组件

参考

https://www.bilibili.com/video/BV1CU4y1N7Sh?p=19&spm_id_from=pageDriver

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/780391.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号