hadoop的伪分布环境搭建（hadoop-2.7.5）

接上一个博客(8条消息) linuxCentos7虚拟机的安装（VMware15.5）（挺详细）_qq_45672631的博客-CSDN博客

VMware15.5 、CentOS-7-x86_64-DVD-1708.iso、jdk1.8.0_301.tar.gz、hadoop-2.7.5.tar.gz

是在VMware15.5下创建的虚拟机，这里的配置可能对其他版本的VMware命令有所不同（会在后面解释）。

需要的软件：Xshell、Xftp、以及jdk1.8.0_301.tar.gz、hadoop-2.7.5.tar.gz（linux的压缩包）

Xshell（远程连接服务器）与Xftp（文件传输工具）可以去官网下载家庭学校免费版，当然兄弟们也可以用其他的文件传输工具

这里我们使用Xshell、Xftp

开启虚拟机登录后，在/usr/local/下创建一个临时存储文件目录

cd /usr/local(也可以分开写)

pwd查看当前的绝对路径

利用:mkdir tmp(创建一个tmp的文件夹，因为是在相对路径下local下创立，也可以使用绝对路径。)

ls查看

以后将所有的tar.gz的压缩包或文件传入到tmp下。（当然也可以传到其他目录下，只要最后自己能找到）

这里说一下怎么用Xshell、Xftp

点击新建，在文件的下面那个标志。

设置：（名称：（新建会话）随便创一个就行这里，主机就是你的linux的主机ip端口号默认22）

配置好点击连接（点击接受并保存）

接下来ssh用户名，这里一定要用root用户来连接，否则等下传文件时会传输失败。记住用户名

输入密码：记住密码，因为在这上面使用，不记住密码会一直提醒你输入密码。

连接成功后，通过命令找到（cd /usr/local/tmp）tmp后点击Xshell，logo旁的Xftp，logo

会自动打开Xftp（可以看到右边哪里已经是在tmp路径下了，这是将hadoop-2.7.5.tar.gz、jdk1.8.0_301.tar.gz）

可以在tmp下使用ls查看是否有

在当前路径下进行解压

命令：tar -zxf 压缩包名

tar -zxf hadoop-2.7.5.tar.gz

tar -zxf jdk-8u301-linux-x64.tar.gz

可以就解压在个路径下，也可以通过mv命令移动到local下

mv hadoop-2.7.5 ../hadoop

mv jdk1.8.0_301 ../jdk

斜杠后面没有空格，就是重命名，有空格代表上级目录里文件夹名

回到上级目录（local下）通过ls查看有了

解压完后，便开始配置环境变量，在配置环境变量前，如果安装的GUI版的需要先将openjdk删掉。（可以百度）这里把命令放出来

rpm -qa | grep java(查看是否有openjdk)

rpm -e --nodeps 文件名（删除）

服务器版并没有openjdk

通过命令vim /etc/profile(最小版本的没有vim,编辑用vi也行)将下图选中的export#注释掉。

按照下图进行配置环境变量，第一个export后面要的是你安装jdk，与hadoop的绝对路径，可以用pwd查看。

配置完如下图：

重启配置文件

命令

source /etc/profile(不同版本VMware可能不同)

重启后，用

hadoop version

java -version

查看是否有版本号，也就是配置文件是否成功（这里之前安装最小版本的有问题，所以用我之前配置好的给通知们上图）

开始hadoop的伪分布环境搭建

首先通过命令到该路径（/usr/local/hadoop/etc/hadoop）

cd /usr/local/hadoop/etc/hadoop

用ls查看

这里伪分布配置需要配置三个文件（其实是两个文件），不过在配置前，先改主机名，与主机-ip映射。core-site.xml、hdfs-site.xml、hadoop-env.sh

vim /etc/hosts

vim /etc/hostname

这是在windows上也需要配置一个主机-ip的映射

c:/windows->system32->drivers->etc->hosts

按下图添加保存

主机映射配置完后，开始配置hadoop的文件

1.vim hadoop-env.sh（第25行，将JAVA_HOME改了，其实也可以不该。因为后面是{java_home}，而在配置环境变量文件时，就是JAVA_HOME，所以可以不配，也可以配）

2.vim core-site.xml（第一个下面的中间哪里lcy-1对应的是主机名或ip地址：后面的端口号可以配置成9000，也可以是8020）

3.vim hdfs-site.xml（第一个是副本数量，第二个在创建windows版eclipse连接hadoop运行实例时，在eclipse中创建文件夹，上传文件，需要配置这个）

这里只需要配置三个文件，伪分布环境配置就完成了。

在第一次启动haodoop时需要格式化namenode，需要在hadoop的路径下，注意看此时只有10个文件，再格式化登录后，会多出两个文件data、logs

格式化成功主要看后面那个status，是不是等于0等于1则需要去之间配置的三个文件仔细检查

通过命令启动hadoop

start-all.sh(也可以分为start-dfs.sh,start-yarn.sh)（有5个节点，顺序不要求）

第一次登录需要输入三次密码，登录完后可以设置免费登录。

通过stop-all.sh关掉hadoop与yarn后设置免费登录

分为如下步骤：

1.回到~目录下，cd .ssh

2.ls,查看，显示know hosts

3. rm -rf know hosts(删除)如果还有其他的也删除

4.回到~下ssh-keygen -t rsa，注意空格

5.告诉自己（主机名，或ip）ssh-copy-id 主机名，注意Number of key(s) added:1

这是已添加一个，再次启动hadoop，就不要输入密码了。

这时，需要在window下访问两个端口50070,8088

可以通过ip访问，也可以通过主机名访问，之前在windows下配映射就是为了主机名访问端口

lcy-1:50070

lcy-1:8088

能访问之后，可以在通过一个命令计算pi看hadoop是否成功

hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.5.jar pi 10 10

这样子，hadoop的伪分布就配置好了

这是接上一篇博客，当时没注意最小版本，所以博客中的图片和之前可能有点不像，因为我用了之前配置好的。这里注意格式化只需要第一次登录时要，在不使用虚拟机时，需要将hadoop关掉，否则下次登录很有可能影响namenode ,datanode

hadoop的伪分布环境搭建（hadoop-2.7.5）

大数据系统相关栏目本月热门文章