hadoop安装和配置详解

伪分布式安装
关闭防火墙：学习环境可以直接把防火墙关闭掉。用root用户登录后，执行查看防火墙状态。

查看防火墙状态

firewall-cmd --state

停止防火墙

[root@localhost ~]# systemctl stop firewalld.service

禁止防火墙开机自启

[root@localhost ~]# systemctl disable firewalld.service
关闭selinux：selinux是Linux一个子安全机制，学习环境可以将它禁用。
[root@localhost ~]# vi /etc/selinux/config

将 SELINUX=enforcing改为 SELINUX=disabled

安装JDK
安装配置jdk
创建目录
[root@localhost ~]# mkdir /opt/install/
解压
[root@@localhost ~]# tar -zxvf jdk-8u144-linux-x64.tar.gz -C /opt/install/
配置环境变量
[root@localhost jdk1.8.0_144]# vi /etc/profile

加入配置

export JAVA_HOME=/opt/install/jdk1.8.0_144
export PATH= P A T H : PATH: PATH:JAVA_HOME/bin

保存后刷新环境变量

[root@localhost jdk1.8.0_144]# source /etc/profile

刷新完执行命令验证JDK是否安装成功

[root@localhost ~]# java –version
注意：Hadoop机器上的JDK，最好是Oracle的Java JDK，不然会有一些问题，比如可能没有JPS命令。如果安装了其他版本的JDK，卸载掉。

安装hadoop
下载地址：https://archive.apache.org/dist/hadoop/common/
#创建一个名字为hadoop的普通用户后面使用hadoop用户启动hadoop
[root@localhost ~]# useradd hadoop
[root@localhost ~]# passwd hadoop

给hadoop用户sudo权限
[root@localhost ~]# vim /etc/sudoers
#设置权限，学习环境可以将hadoop用户的权限设置的大一些，但是生产环境一定要注意普通用户的权限限制。
root ALL=(ALL) ALL
hadoop ALL=(root) NOPASSWD:ALL

#注意：如果root用户无权修改sudoers文件，先手动为root用户添加写权限。
[root@bigdata-senior01 ~]# chmod u+w /etc/sudoers
#切换到hadoop用户
[root@localhost ~]# su - hadoop
[hadoop@localhost ~]$

设置hadoop用户SSH免密登陆
[hadoop@localhost ~]# ssh-keygen -t rsa # 生产密钥

连续三次回车将密钥发送给需要登陆本机的机器，这里只有一台机器所以发给自己

[hadoop@localhost ~]# ssh-copy-id hadoop@localhost
或则使用命令
cat ~/.ssh/id_*.pub | ssh root@10.××.××.5 ‘cat >> .ssh/authorized_keys’
将公钥复制到需要免密登录的机器

测试ssh

[hadoop@localhost ~]# ssh hadoop@localhost

创建存放hadoop文件的目录
[hadoop@localhost ~]$ sudo mkdir /opt/modules
#将hadoop文件夹的所有者指定为hadoop用户,如果存放hadoop的目录的所有者不是hadoop，之后hadoop运行中可能会有权限问题，那么就将所有者改为hadoop。
[hadoop@localhost ~]# sudo chown -R hadoop:hadoop /opt/modules

解压Hadoop目录文件
#复制hadoop-3.2.1.tar.gz到/opt/modules目录下。解压hadoop-3.2.1.tar.gz。
[hadoop@localhost ~]# cd /opt/modules
[hadoop@localhost hadoop]# tar -zxvf hadoop-3.2.1.tar.gz
解压到指定目录： tar -zxvf hadoop-3.2.1.tar.gz -C 【指定目录】

配置Hadoop
#配置Hadoop环境变量
[hadoop@localhost hadoop]# vim /etc/profile
#追加配置：export HADOOP_HOME="/opt/modules/hadoop-3.2.1"
export PATH= H A D O O P H O M E / b i n : HADOOP_HOME/bin: HADOOPHOME/bin:HADOOP_HOME/sbin:$PATH
#执行：source /etc/profile 使得配置生效

#验证HADOOP_HOME参数：
[hadoop@localhost /]$ echo $HADOOP_HOME

#配置 hadoop-env.sh、mapred-env.sh、yarn-env.sh文件的JAVA_HOME参数
[hadoop@localhost ~]$ sudo vim ${HADOOP_HOME}/etc/hadoop/hadoop-env.sh

#修改JAVA_HOME参数为：
export JAVA_HOME="/opt/modules/jdk1.8"

core-site.xml

 
	
		
		fs.defaultFS
		hdfs://ip:9000   
	
	
		hadoop.http.staticuser.user
		hadoop
	
	
		dfs.permissions.enabled
		false
	 
	
		hadoop.proxyuser.hadoop.hosts
		*
	
	
		hadoop.proxyuser.hadoop.groups
		*

hdfs-site.xml


	
		
            dfs.nameservices
             hadoop-cluster
        
        
		
            dfs.namenode.name.dir
             file:///data/hadoop/hdfs/nn
        
        
            dfs.namenode.checkpoint.dir
             file:///data/hadoop/hdfs/snn
        
        
            dfs.namenode.checkpoint.edits.dir
             file:///data/hadoop/hdfs/snn
        
        
		 
            dfs.datanode.data.dir
             file:///data/hadoop/hdfs/dn
        
	 
	
	   	 dfs.webhdfs.enabled
	   	 true

需要将上述配置中涉及到的目录先创建出来
sudo mkdir /data/hadoop/hdfs
sudo mkdir /data/hadoop/yarn
sudo mkdir /data/hadoop/hdfs/dn
sudo mkdir /data/hadoop/hdfs/nn
sudo mkdir /data/hadoop/hdfs/snn
sudo mkdir /data/hadoop/yarn/nm

mapred-site.xml

 
       

            mapreduce.framework.name
            yarn
       
	

	  yarn.app.mapreduce.am.env
	  HADOOP_MAPRED_HOME=${HADOOP_HOME}
	
	
	  mapreduce.map.env
	  HADOOP_MAPRED_HOME=${HADOOP_HOME}
	
	
	  mapreduce.reduce.env
	  HADOOP_MAPRED_HOME=${HADOOP_HOME}

yarn-site.xml

 

 
         
               yarn.resourcemanager.hostname
               10.××.××.7
        
        

               yarn.nodemanager.aux-services
               mapreduce_shuffle
        
        
               yarn.nodemanager.local-dirs
               file:///data/hadoop/yarn/nm
       

        yarn.nodemanager.pmem-check-enabled
        false


        yarn.nodemanager.vmem-check-enabled
        false

格式化NameNode
目的作用：格式化hdfs系统，并且生成存储数据块的目录
如果启动过hadoop后需要格式化需要清空hidfs-site.xml中配置的几个目录
[root@localhost hadoop-3.2.1]# hadoop namenode -format

Hadoop起停命令
start-all.sh

stop-all.sh

启动成后 jps查看进程
访问yarn web页面
http://10.××.××.7:8088
访问hdfs web页面
http://10.××.××.7:9870

HDFS上测试创建目录、上传、下载文件
#HDFS上创建目录
bin/hdfs dfs -mkdir /demo1

上传本地文件到HDFS上
bin/hdfs dfs -put

${HADOOP_HOME}/etc/hadoop/core-site.xml /demo1

#读取HDFS上的文件内容

bin/hdfs dfs -cat /demo1/core-site.xml

#从HDFS上下载文件到本地

bin/hdfs dfs -get /demo1/core-site.xml

#修改文件权限

hdfs dfs -chmod -R 755 /user

#创建测试用的Input文件,创建输入目录:

hdfs dfs -mkdir -p /wordCountDemo/input

#将wc.input文件上传到HDFS的/wordCountDemo/input目录中:

hdfs dfs -put /data/hadoop/tmp/wc.input /wordCountDemo/input

#运行WordCount MapReduce Job
bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.1.jar wordcount /wordCountDemo/input /wordCountDemo/output

#查看输出结果目录
bin/hdfs dfs -ls /wordCountDemo/output

#output目录中有两个文件，_SUCCESS文件是空文件，有这个文件说明Job执行成功。part-r-00000文件是结果文件，

其中-r-说明这个文件是Reduce阶段产生的结果，mapreduce程序执行时，可以没有reduce阶段，

但是肯定会有map阶段，如果没有reduce阶段这个地方有是-m-。一个reduce会产生一个part-r-开头的文件。查看输出文件内容。

开启历史服务功能
在mapred-site.xml中加上下面的配置

	
	 mapreduce.jobhistory.done-dir
	 /data/hadoop/history/done
	
	
	 mapreduce.jobhistory.intermediate-done-dir
	 /data/hadoop/history/done_intermediate
	
	
	
		mapreduce.jobhistory.address
		10.××.××.7:10020
	
	
	
		mapreduce.jobhistory.webapp.address
		10.××.××.7:19888

开启/关闭历史服务命令
mr-jobhistory-daemon.sh start historyserver
mr-jobhistory-daemon.sh stop historyserver
开启成功后可以通过10.××.××.7:19888访问webUI
执行一个任务
[hadoop@localhost hadoop-3.2.1]$ bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /wordcountdemo/input /wordcountdemo/output1#

开启日志聚集
在yarn-site.xml文件里配置启用日志聚集。


        yarn.log-aggregation-enable
        true
	是否启用日志聚集功能


    yarn.log-aggregation-status.time-out.ms
    600000

    
	yarn.log-aggregation.retain-seconds    
	106800 
	设置日志保留时间，单位是秒


        yarn.log.server.url
        http://10.××.××.7:19888/jobhistory/logs

重启hadoop

hadoop安装和配置 详解

大数据系统相关栏目本月热门文章

hadoop安装和配置详解