完全分布式集群_大数据系统

安装模式之完全分布式集群 1 完全分布式模式介绍

完全分布式，指的是在真实环境下，使用多台机器，共同配合，来构建一个完整的分布式文件系统。
在真实环境中，hdfs中的相关守护进程也会分布在不同的机器中，比如：
-1. namenode守护进程尽可能的单独部署在一台硬件性能相对来说比较好的机器中。
-2. 其他的每台机器上都会部署一个datanode守护进程，一般的硬件环境即可。
-3. secondarynamenode守护进程最好不要和namenode在同一台机器上。

2 平台软件说明

- 操作系统: 		win10/win7
- 虚拟软件:			VMware14
- 虚拟机:			 
					主机名     	IP
					qianfeng01		192.168.10.101
                  	qianfeng02		192.168.10.102
                  	qianfeng03		192.168.10.103
- 软件包存储路径:	  /root/
- 软件安装路径:	   /usr/local/	
- Jdk:			   jdk-8u221-linux-x64.tar.gz
- Hadoop:		   hadoop-2.7.6.tar.gz
- 用户:			  root

切记，切记，切记：
实际生产环境中，我们不会使用root用户来搭建和管理hdfs，而是使用普通用户。这里为了方便学习，我们才使用的root用户。

注意，注意，注意：
1.如果你是从伪分布式过来的，最好先把伪分布式的相关守护进程关闭：stop-all.sh
2.删除原来伪分布式的相关设置
如果原来使用的是默认路径,现在已经没有用了
如果原来使用的跟现在全分布式路径一样,因为这里跟之前的初始化的内容不一样,而且这个文件要让系统自动生成
综上:要删除掉namenode和datanode的目录

3 守护进程布局

我们搭建hdfs的完全分布式，顺便搭建一下yarn。hdfs和yarn的相关守护进程的布局如下:

qianfeng01:	namenode,datanode,ResourceManager,nodemanager
qianfeng02:	datanode,nodemanager,secondarynamenode
qianfeng03:	datanode,nodemanager

4 完全分布式环境需求和搭建（重点）

4.1 环境需求说明：

-1. 三台机器的防火墙必须是关闭的.
-2. 确保三台机器的网络配置畅通(NAT模式，静态IP，主机名的配置)
-3. 确保/etc/hosts文件配置了ip和hostname的映射关系
-4. 确保配置了三台机器的免密登陆认证（克隆会更加方便）
-5. 确保所有机器时间同步
-6. jdk和hadoop的环境变量配置

4.2 关闭防火墙

[root@qianfeng01 ~]# systemctl stop firewalld
[root@qianfeng01 ~]# systemctl disable firewalld
[root@qianfeng01 ~]# systemctl stop NetworkManager
[root@qianfeng01 ~]# systemctl disable NetworkManager

#最好也把selinux关闭掉，这是linux系统的一个安全机制，进入文件中将SELINUX设置为disabled
[root@qianfeng01 ~]# vi /etc/selinux/config
.........
SELINUX=disabled			
.........

情况说明：如果安装好三台机器，三台机器的防火墙都需要单独关闭和设置开机不启动。如果准备使用克隆方式，只关闭qianfeng01机器即可。下面的配置也是如此。

4.3 静态IP和主机名配置

--1. 配置静态IP（确保NAT模式）
[root@qianfeng01 ~]# vi /etc/sysconfig/network-scripts/ifcfg-ens33
............
BOOTPROTO=static			#将dhcp改为static
............
onBOOT=yes					#将no改为yes
IPADDR=192.168.10.101		#添加IPADDR属性和ip地址
PREFIX=24					#添加NETMASK=255.255.255.0或者PREFIX=24	
GATEWAY=192.168.10.2		#添加网关GATEWAY
DNS1=114.114.114.114         #添加DNS1和备份DNS
DNS2=8.8.8.8

--2. 重启网络服务
[root@qianfeng01 ~]# systemctl restart network
或者
[root@qianfeng01 ~]# service network restart

--3. 修改主机名(如果修改过，请略过这一步)
[root@localhost ~]# hostnamectl set-hostname qianfeng01
或者
[root@localhost ~]# vi /etc/hostname
qianfeng01

注意：配置完ip和主机名后，最好reboot一下

4.4 配置/etc/hosts文件

[root@qianfeng01 ~]#  vi /etc/hosts
127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6

192.168.10.101 qianfeng01  #添加本机的静态IP和本机的主机名之间的映射关系 
192.168.10.102 qianfeng02
192.168.10.103 qianfeng03

4.5 免密登陆认证

-1. 使用rsa加密技术，生成公钥和私钥。一路回车即可
[root@qianfeng01 ~]# cd ~
[root@qianfeng01 ~]# ssh-keygen -t rsa	

-2. 进入~/.ssh目录下，使用ssh-copy-id命令
[root@qianfeng01 ~]# cd ~/.ssh			
[root@qianfeng01 .ssh]# ssh-copy-id  root@qianfeng01

-3. 进行验证	
[hadoop@qianfeng01 .ssh]# ssh qianfeng01
#下面的第一次执行时输入yes后，不提示输入密码就对了
[hadoop@qianfeng01 .ssh]# ssh localhost
[hadoop@qianfeng01 .ssh]# ssh 0.0.0.0

注意：三台机器提前安装好的情况下，需要同步公钥文件。如果使用克隆技术。那么使用同一套密钥对就方便多了。

4.6 时间同步

可以参考Linux文档中的时间同步或者搭建局域网时间服务器。

4.7 安装Jdk和Hadoop，配置相关环境变量

-1. 上传和解压两个软件包
[root@qianfeng01 ~]# tar -zxvf jdk-8u221-linux-x64.tar.gz -C /usr/local/
[root@qianfeng01 ~]# tar -zxvf hadoop-2.7.6.tar.gz -C /usr/local/

-2. 进入local里，给两个软件更名
[root@qianfeng01 ~]# cd /usr/local/
[root@qianfeng01 local]# mv 1.8.0_221/  jdk
[root@qianfeng01 local]# mv hadoop-2.7.6/ hadoop

-3. 配置环境变量
[hadoop@qianfeng01 local]# vi /etc/profile

.....省略...........

#java environment
export JAVA_HOME=/usr/local/jdk
export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH

#hadoop environment
export HADOOP_HOME=/usr/local/hadoop
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

5 Hadoop的配置文件

5.1 提取四个默认配置文件

第一步：将hadoop安装包解压到pc端的一个目录下，然后在hadoop-2.7.6目录下创建一个default目录，用于存储默认配置文件。
第二步：进入hadoop的share目录中的doc子目录，搜索default.xml。将以下四个默认的xml文件copy到default目录中，方便以后查看

5.2 $HADOOP_HOME/etc/hadoop/目录下的用户自定义配置文件

- core-site.xml
- hdfs-site.xml
- mapred-site.xml   复制mapred-site.xml.template而来
- yarn-site.xml

5.3 属性的优先级

代码中的属性>xxx-site.xml>xxx-default.xml

6 完全分布式文件配置（重点）

配置前说明：
1.我们先在qianfeng01机器节点上配置hadoop的相关属性。
2.在之间的值不能有空格

6.1 配置core-site.xml文件

[root@qianfeng01 ~]# cd $HADOOP_HOME/etc/hadoop/
[root@qianfeng01 hadoop]# vi core-site.xml

     
    
        fs.defaultFS
        hdfs://qianfeng01:8020
    
     
    
        hadoop.tmp.dir
        /usr/local/hadoop/tmp

参考：core-default.xml

6.2 再配置hdfs-site.xml文件

[root@qianfeng01 hadoop]# vi hdfs-site.xml

    
    
        dfs.namenode.name.dir
        file://${hadoop.tmp.dir}/dfs/name
    
    
    
        dfs.datanode.data.dir
        file://${hadoop.tmp.dir}/dfs/data
    
    
    
        dfs.replication
        3
    
    
    
        dfs.blocksize
        134217728
    
    
    
        dfs.namenode.secondary.http-address
        qianfeng02:50090
    
  	
	
  	  dfs.namenode.http-address
  	  qianfeng01:50070

参考：hdfs-default.xml

6.3 然后配置mapred-site.xml文件

如果只是搭建hdfs,只需要配置core-site.xml和hdfs-site.xml文件就可以了，但是我们过两天要学习的MapReduce是需要YARN资源管理器的，因此，在这里，我们提前配置一下相关文件。

[root@qianfeng01 hadoop]# cp mapred-site.xml.template  mapred-site.xml
[root@qianfeng01 hadoop]# vi mapred-site.xml

    
    
        mapreduce.framework.name
        yarn
    
    
    
        mapreduce.jobhistory.address
        qianfeng01:10020
    
    
    
        mapreduce.jobhistory.webapp.address
        qianfeng01:19888

参考：mapred-default.xml

6.4 配置yarn-site.xml文件

[root@qianfeng01 hadoop]# vi yarn-site.xml

    
    
        yarn.nodemanager.aux-services
       mapreduce_shuffle
    
    
    
        yarn.resourcemanager.hostname
        qianfeng01
     
    
    
	 
	yarn.nodemanager.aux-services.mapreduce_shuffle.class
     org.apache.hadoop.mapred.ShuffleHandler 
	

	
	
	yarn.resourcemanager.address
	qianfeng01:8032
	

	
	
	yarn.resourcemanager.scheduler.address
	qianfeng01:8030
	

	
	
	yarn.resourcemanager.resource-tracker.address
	qianfeng01:8031
	

	
	
	yarn.resourcemanager.admin.address
	qianfeng01:8033
	

	
	
	yarn.resourcemanager.webapp.address
	qianfeng01:8088

参考：yarn-default.xml

6.5 配置hadoop-env.sh脚本文件

[root@qianfeng01 hadoop]# vi hadoop-env.sh
.........
# The java implementation to use.
export JAVA_HOME=/usr/local/jdk
.........

6.6 配置slaves文件

此文件用于指定datanode守护进程所在的机器节点主机名

[root@qianfeng01 hadoop]# vi slaves
qianfeng01
qianfeng02
qianfeng03

6.7 配置yarn-env.sh文件，

此文件可以不配置，不过，最好还是修改一下yarn的jdk环境比较好

[root@qianfeng01 hadoop]# vi yarn-env.sh
.........
# some Java parameters
export JAVA_HOME=/usr/local/jdk
if [ "$JAVA_HOME" != "" ]; then
  #echo "run java in $JAVA_HOME"
  JAVA_HOME=$JAVA_HOME
fi
.........

7 另外两台机器配置说明

当把qianfeng01机器上的hadoop的相关文件配置完毕后，我们有以下两种方式来选择配置另外几台机器的hadoop.

方法1：“scp”进行同步

提示：本方法适用于多台虚拟机已经提前搭建出来的场景。

--1. 同步hadoop到slave节点上
[root@qianfeng01 ~]# cd /usr/local
[root@qianfeng01 local]# scp -r ./hadoop qianfeng02:/usr/local/
[root@qianfeng01 local]# scp -r ./hadoop qianfeng03:/usr/local/

--2. 同步/etc/profile到slave节点上
[root@qianfeng01 local]# scp /etc/profile qianfeng02:/etc/
[root@qianfeng01 local]# scp /etc/profile qianfeng03:/etc/

--3. 如果slave节点上的jdk也没有安装，别忘记同步jdk。
--4. 检查是否同步了/etc/hosts文件

**方法2：**克隆qianfeng01虚拟机

提示：本方法适用于还没有安装slave虚拟机的场景。通过克隆qianfeng01节点的方式，来克隆一个qianfeng02和qianfeng03机器节点，这种方式就不用重复安装环境和配置文件了，效率非常高，节省了大部分时间(免密认证的秘钥对都是相同的一套)。

--1. 打开一个新克隆出来的虚拟机，修改主机名
[root@qianfeng01 ~]# hostnamectl set-hostname qianfeng02 
--2. 修改ip地址
[root@qianfeng01 ~]# vi /etc/sysconfig/network-scripts/ifcfg-ens33
.........省略.........
IPADDR=192.168.10.102				<==修改为qianfeng02对应的ip地址
.........省略........
--3. 重启网络服务
[root@qianfeng01 ~]# systemctl restart network
--4. 其他新克隆的虚拟机重复以上1~3步
--5. 免密登陆的验证
	从qianfeng01机器上，连接其他的每一个节点，验证免密是否好使，同时去掉第一次的询问步骤

--6. 建议：每台机器在重启网络服务后，最好reboot一下。

8 格式化NameNode

**1）**在qianfeng01机器上运行命令

[root@qianfeng01 ~]# hdfs namenode -format

**2）**格式化的相关信息解读

--1. 生成一个集群唯一标识符:clusterid
--2. 生成一个块池唯一标识符:blockPoolId
--3. 生成namenode进程管理内容(fsimage)的存储路径：
	默认配置文件属性hadoop.tmp.dir指定的路径下生成dfs/name目录
--4. 生成镜像文件fsimage，记录分布式文件系统根路径的元数据

--5. 其他信息都可以查看一下，比如块的副本数，集群的fsOwner等。

**3）**目录里的内容查看

9 启动集群

9.1 启动脚本和关闭脚本介绍

1. 启动脚本
	-- start-dfs.sh			:用于启动hdfs集群的脚本
	-- start-yarn.sh		:用于启动yarn守护进程
	-- start-all.sh			:用于启动hdfs和yarn
2. 关闭脚本
	-- stop-dfs.sh			:用于关闭hdfs集群的脚本
	-- stop-yarn.sh			:用于关闭yarn守护进程
	-- stop-all.sh			:用于关闭hdfs和yarn
3. 单个守护进程脚本
	-- hadoop-daemons.sh	:用于单独启动或关闭hdfs的某一个守护进程的脚本
	-- hadoop-daemon.sh		:用于单独启动或关闭hdfs的某一个守护进程的脚本
	reg:
		hadoop-daemon.sh [start|stop] [namenode|datanode|secondarynamenode]
	
	-- yarn-daemons.sh	:用于单独启动或关闭hdfs的某一个守护进程的脚本
	-- yarn-daemon.sh		:用于单独启动或关闭hdfs的某一个守护进程的脚本
	reg:
		yarn-daemon.sh [start|stop] [resourcemanager|nodemanager]

9.2 启动hdfs

**1）**使用start-dfs.sh，启动 hdfs。参考图片

**2）**启动过程解析：

- 启动集群中的各个机器节点上的分布式文件系统的守护进程
  一个namenode和resourcemanager以及secondarynamenode
  多个datanode和nodemanager
- 在namenode守护进程管理内容的目录下生成edit日志文件
- 在每个datanode所在节点下生成${hadoop.tmp.dir}/dfs/data目录,参考下图：

注意，注意，注意

如果哪台机器的相关守护进程没有开启，那么，就查看哪台机器上的守护进程对应的日志log文件,注意，启动脚本运行时提醒的日志后缀是*.out，而我们查看的是*.log文件。此文件的位置：${HADOOP_HOME}/logs/里

**3）**jps查看进程

--1. 在qianfeng01上运行jps指令，会有如下进程
	namenode
	datanode
--2. 在qianfeng02上运行jps指令，会有如下进程
	secondarynamenode
	datanode
--3. 在qianfeng03上运行jps指令，会有如下进程
	datanode

9.3 启动yarn

**1）**使用start-yarn.sh脚本，参考图片

**2）**jps查看

--1. 在qianfeng01上运行jps指令，会多出有如下进程
	resoucemanager
	nodemanager
--2. 在qianfeng02上运行jps指令，会多出有如下进程
	nodemanager
--3. 在qianfeng03上运行jps指令，会多出有如下进程
	nodemanager

9.4 webui查看

1. http://192.168.10.101:50070
2. http://192.168.10.101:8088

10 程序案例演示：wordcount

1）准备要统计的两个文件,存储到~/data/下

--1. 创建data目录
[root@qianfeng01 hadoop]# mkdir ~/data
--2. 将以下两个文件上传到data目录下
- poetry1.txt
- poetry2.txt

2）在hdfs上创建存储目录

[root@qianfeng01 hadoop]# hdfs dfs -mkdir /input

3）将本地文件系统上的上传到hdfs上,并在web上查看一下

[root@qianfeng01 hadoop]$ hdfs dfs -put ~/data/poetry* /input/

4）运行自带的单词统计程序wordcount

[root@qianfeng01 hadoop]# cd $HADOOP_HOME
[root@qianfeng01 hadoop]# hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.6.jar  wordcount /input /output

5）查看webui

6）查看part-r-00000文件

[root@qianfeng01 hadoop]# hdfs dfs -cat /output/part-r-00000

11 启动脚本的解读（选讲）

1. start-all.sh
2. start-dfs.sh
3. hadoop-daemon.sh
参考我的博客：https://blog.csdn.net/Michael__One/article/details/86141142

12 集群守护进程不能开启的情况

1. 格式化集群时，报错原因
	- 当前用户使用不当
	- /etc/hosts里的映射关系填写错误
	- 免密登录认证异常
	- jdk环境变量配置错误
	- 防火墙没有关闭
	- 配置文件出错
2. namenode进程没有启动的原因：
	- 当前用户使用不当
	- 重新格式化时，忘记删除${hadoop.tmp.dir}目录下的内容
	- 网络震荡，造成edit日志文件的事务ID序号不连续
	- 配置文件出错
3. datanode出现问题的原因
	- /etc/hosts里的映射关系填写错误
	- 免密登录异常
	- 重新格式化时，忘记删除${hadoop.tmp.dir}目录下的内容，造成datanode的唯一标识符不在新集群中。
4. 上述问题暴力解决办法：重新格式化
   	如果想重新格式化，那么先关闭集群的守护进程，再删除每台机器上的${hadoop.tmp.dir}指定路径下的所有内容，然后再格式化：最好也把logs目录下的内容也清空，因为日志内容已经是前一个废弃集群的日志信息了，留着也无用。

## 12 集群守护进程不能开启的情况

```properties
1. 格式化集群时，报错原因
	- 当前用户使用不当
	- /etc/hosts里的映射关系填写错误
	- 免密登录认证异常
	- jdk环境变量配置错误
	- 防火墙没有关闭
	- 配置文件出错
2. namenode进程没有启动的原因：
	- 当前用户使用不当
	- 重新格式化时，忘记删除${hadoop.tmp.dir}目录下的内容
	- 网络震荡，造成edit日志文件的事务ID序号不连续
	- 配置文件出错
3. datanode出现问题的原因
	- /etc/hosts里的映射关系填写错误
	- 免密登录异常
	- 重新格式化时，忘记删除${hadoop.tmp.dir}目录下的内容，造成datanode的唯一标识符不在新集群中。
4. 上述问题暴力解决办法：重新格式化
   	如果想重新格式化，那么先关闭集群的守护进程，再删除每台机器上的${hadoop.tmp.dir}指定路径下的所有内容，然后再格式化：最好也把logs目录下的内容也清空，因为日志内容已经是前一个废弃集群的日志信息了，留着也无用。

完全分布式集群

大数据系统相关栏目本月热门文章