栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

大数据学习之组件安装

大数据学习之组件安装

大数据的诞生之初是为了存储海量数据,在存储了海量数据后,就让海量数据产生价值,于是需要海量数据的计算,海量的计算有很多job,需要海量的资源,且job之间有优先级需要调度,于是需要集中的资源调度。大数据的基石 Hadoop就大概可以分为这三块。

存储 -> 计算 -> 调度。

存储: HDFS为基石,它只是个文件系统,只负责存储,但是没有组织,导致外部查找不方便。于是hive诞生了,hive的数据还是存储在hdfs上,但是它提供了组织架构,类似关系型表的组织。hive的查询引擎是MR,不够快,于是有了其他的即席查询(impala,kylin,druid等)。但是impala使用的元数据还是hive。所有存储这块,HDFS和hive是基石。

计算:  分为实时(流式)和离线(批式),离线有: MR, spark。 实时有: storm,flink。当然flink和spark是都可以做实时和离线,只是擅长的点不一样。 发展大体可以粗略概括为

        离线:  MR -> spark   实时:  storm -> flink

        流批一体的框架: spark和flink。

调度: 国内就是Yarn的天下。

学习路线1:  Hadoop -> Hive -> zookeeper -> kafka

学习路线2:  Hadoop -> Hive -> Impala -> hue -> zookeeper -> Hbase -> kafka

Hadoop安装文档:Hadoop的安装部署(学习使用)_zhang5324496的博客-CSDN博客

Hive 安装文档:Hive安装部署_zhang5324496的博客-CSDN博客

Zookeeper安装文档:Zookeeper集群搭建_zhang5324496的博客-CSDN博客

Hbase 安装文档: Hbase的安装部署_zhang5324496的博客-CSDN博客

未完,待后续补充 

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/600458.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号