在单节点集群上安装Hadoop和HDFS

文章目录

- 一、准备条件
- 二、实验目的
- 三、实验原理
- 四、实验步骤

一、准备条件

虚拟机VMWare
Linux系统 Ubuntu
Java JDK8
Hadoop 2.7.3

二、实验目的

回顾复习Linux 文件操作和vi编辑器使用方法
学会在Ubuntu系统中安装和配置Hadoop
掌握启动Hadoop和查看HDFS daemons服务状态的方法

三、实验原理

Linux系统下Java 运行和开发环境JDK的安装配置
在Java环境中安装和运行Hadoop

四、实验步骤

步骤1
在Ubuntu中下载Java 8 的tar文件jdk-8u101-linux-i586.tar.gz，保存在当前用户（home）目录下，在终端Terminal中用tar解压文件

命令 tar  -xvf  jdk-8u101-linux-x64.tar.gz

结果：

步骤2

在Linux中
wget https://archive.apache.org/dist/hadoop/core/hadoop-2.7.3/hadoop-2.7.3.tar.gz
或迅雷下载后复制到Linux中，解压Hadoop安装文件到home路径下

命令：cd ~  tar -xvf  hadoop-2.7.3.tar.gz

结果：

步骤3
在bash文件(.bashrc) 中添加Java和Hadoop路径, 使用户可以直接访问java和hadoop

命令：
vi .bashrc
gedit .bashrc
按下图设置路径
export HADOOP_HOME=$HOME/hadoop-2.7.3
export HADOOP_CONF_DIR=$HOME/hadoop-2.7.3/etc/hadoop
export HADOOP_MAPRED_HOME=$HOME/hadoop-2.7.3
export HADOOP_COMMON_HOME=$HOME/hadoop-2.7.3
export HADOOP_HDFS_HOME=$HOME/hadoop-2.7.3
export YARN_HOME=$HOME/hadoop-2.7.3
export PATH="$PATH:$HOME/hadoop-2.7.3/bin"
export JAVA_HOME=$HOME/jdk1.8.0_101
export PATH="$PATH:$HOME/jdk1.8.0_101/bin"
保存bashrc文件
运行命令 source .bashrc使路径起效

结果：

步骤4
查看Hadoop配置文件

命令
cd hadoop-2.7.3/etc/hadoop/
ls

可以看到配置文件core-site.xml，它包含NameNode的运行参数
结果：

步骤5
配置core-site.xml，创建临时文件保存目录/home/ubuntu/tmp

命令：
cd ~
mkdir tmp
编辑core-site.xml
命令：vi core-site.xml或者gedit core-site.xml
更改NameNode的位置信息，configuration标签中添加property,
如下图所示:




fs.default.name
hdfs://localhost:9000


hadoop.tmp.dir
/home/ubuntu/tmp  (注意替换ubuntu为你的用户名)

结果：

步骤6
设置HDFS参数信息，文件hdfs-site.xml保存了HDFS deamons的配置，编辑hdfs-site.xml ，在configuration标签副本个数replication factor，和dfs.permission参数，

命令
gedit  hdfs-site.xml
做下面更改




dfs.replication
1                              


dfs.permission
false

结果：

步骤7
设置Hadoop的Java环境变量

命令：gedit   hadoop-env.sh
做如下更改
export JAVA_HOME=$HOME/jdk1.8.0_101

结果：

步骤8
格式化NameNode

命令：hdfs namenode  -format

注意，此命令只在Hadoop安装好后执行一次，它会清空所有数据
结果:

步骤9
安装ssh服务

终端执行
sudo apt-get install openssh-server
可能提示输入用户密码Command 'trn' from package 'trn4' (multiverse)
 Command 'trn' from package 'trn' (multiverse)
 Command 'pry' from package 'pry' (universe)
 Command 'tty' from package 'coreutils' (main)
 Command 'tr' from package 'coreutils' (main)
 Command 'trs' from package 'konwert' (main)

结果:

步骤10
进入hadoop-2.7.3/sbin目录，启动3个deamons进程

命令:cd  ~/hadoop-2.7.3/sbin   ./start-all.sh
如果提示类似
The authenticity of host '0.0.0.0 (0.0.0.0)' can't be established.
ECDSA key fingerprint is 9a:b7:d1:08:3d:83:e4:23:84:4f:b3:e5:64:3e:64:ae.
Are you sure you want to continue connecting (yes/no)?
则输入yes
另外，此过程中可能会提示输入用户密码
此命令相当于同时执行 start-dfs.sh, start-yarn.sh 和 mr-jobhistory-daemon.sh
等效于以下5条命令：
./hadoop-daemon.sh start namenode
./hadoop-daemon.sh start datanode
./yarn-daemon.sh start resourcemanager
./yarn-daemon.sh start nodemanager
./mr-jobhistory-daemon.sh start historyserver

如果出现类似下面内容，表明Hadoop各组件启动成功

结果：

步骤11
检查所有Hadoop服务进程的运行状态

命令：jps

会列出各个daemons进程名称和编号
例如：

结果：

步骤12
Linux中打开浏览器（如火狐），访问

http://localhost:50070/dfshealth.html，检查NameNode状态。
注: 如果启动start-all.sh后，没有NameNode，则执行 hadoop namenode -format

例如：

结果：

在单节点集群上安装Hadoop和HDFS

大数据系统相关栏目本月热门文章