原地址:
尚硅谷大数据Hadoop 3.x(入门搭建+安装调优)_哔哩哔哩_bilibili
抖音、物流等数据分析场景
业务流程
大的来说是一个生态圈
Hadoop优势
组成
MapReduce架构
数据生态体系:
hadoop目录
ssh免登录原理
尚硅谷大数据Hadoop 3.x(入门搭建+安装调优)_哔哩哔哩_bilibili
rsa私钥内容多 pub公钥内容少,把公钥拷贝到其他主机。访问自己也不行,也需要拷贝给自己
允许主机
core-site.xml hdfs-site.xml yarn-site.xml
HDFS(分布式存储系统)用途:解决大数据的存储问题,YARN为Hadoop2.0引入的资源管理系统
HDFS和YARN的HA架构梳理_muyingmiao的博客-CSDN博客
HDFS由四部分组成:HDFS Client、NameNode(NN)、DataNode(DN)和Secondary NameNode(SSN)。 HDFS是一个主/从(Mater/Slave)体系结构,HDFS集群拥有一个NameNode和一些DataNode。NameNode管理文件系统的元数据,DataNode存储实际的数据。
YARN的介绍
ResourceManager: 全局资源管理和任务调度 NodeManager: 单个节点的资源管理和监控 ApplicationMaster: 单个作业的资源管理和任务监控 Container: 资源申请的单位和任务运行的容器
HDFS处理分布式存储,YARN处理分布式计算资源调度。简单来说两者关系不大。你完全可以只用HDFS不用YARN,理论上你也可以用YARN而不用HDFS。当然因为它们共同属于Hadoop,所以还真有些关系。
NameNode角色:HDFS系统中的节点用于维护文件系统中所有文件的目录结构并跟踪文件数据存储于哪些数据节点。当客户端需要从HDFS 文件系统中获得文件时,它通过和NameNode通讯来知道客户端哪个数据节点上有客户端需要的文件。 一个Hadoop集群中只能有一个NameNode。NameNode不能被赋予其他角色。
DataNode角色:在HDFS中,DataNode是用来存储数据块的节点。
Secondary NameNode 角色:为NameNode上的数据创建周期性检查点的节点。节点将周期性地下载当前NameNode镜像和日志文件,将日志和镜像文件合并为一个新的镜像文件然后上传到NameNode。 被分配了NameNode角色的机器不应再被分配Secondary NameNode 角色。
Standby Namenode角色:Standby模式的NameNode元数据(Namespcae information 和 Block 都是和Active NameNode中的元数据是同步的,一但切换成Active模式,马上就可以提供NameNode服务。
端口说明及配置文件



