推荐系统（4）——Hadoop运行环境搭建及运行

Hadoop环境搭建包括VM，JDK，Hadoop的安装测试

1. 定制一台虚拟机模板

2. 克隆虚拟机

3. 安装JDK

4. 安装Hadoop

5. Hadoop的运行

1. 定制一台虚拟机模板

（ 0）安装模板虚拟机，IP地址192.168.10.100、主机名称hadoop100、内存4G、硬盘50G

前两篇完成了这个工作，接下来继续

（1）hadoop100虚拟机配置要求

（1）使用yum安装需要虚拟机可以正常上网，yum安装前可以先测试下虚拟机联网情况

[root@hadoop100 ~]# ping www.baidu.com
PING www.baidu.com (14.215.177.39) 56(84) bytes of data.
64 bytes from 14.215.177.39 (14.215.177.39): icmp_seq=1 ttl=128 time=8.60 ms
64 bytes from 14.215.177.39 (14.215.177.39): icmp_seq=2 ttl=128 time=7.72 ms

（2）安装epel-release

注：Extra Packages for Enterprise Linux是为“红帽系”的操作系统提供额外的软件包，适用于RHEL、CentOS和Scientific Linux。相当于是一个软件仓库，大多数rpm包在官方 repository 中是找不到的）

yum install -y epel-release

如果提示错误该PID被锁定：直接杀死进程号就行了。

（ 2）关闭防火墙，关闭防火墙开机自启

systemctl stop firewalld.service
systemctl disable firewalld.service

查看状态：systemctl status firewalld.service

注意：在企业开发时，通常单个服务器的防火墙时关闭的。公司整体对外会设置非常安全的防火墙。

（3）卸载虚拟机自带的JDK

查询自带的JDK
rpm -qa | grep -i java

一条命令卸载所有自带的JDK，切换一下到root
rpm -qa | grep -i java | xargs -n1 rpm -e --nodeps

rpm -qa：查询所安装的所有rpm软件包

grep -i：忽略大小写

xargs -n1：表示每次只传递一个参数

rpm -e –nodeps：强制卸载软件

注意：如果在安装虚拟机的时候，选择的是最小化安装，那么就不会有自带的JDK，无需操作

（4）在opt目录下创建两个文件夹，module和software用于存放软件包

sudo mkdir module
sudo mkdir software

（5）重启虚拟机：reboot

一台虚拟机的模板完毕！

2. 克隆虚拟机

（1）关闭虚拟机

（2）右击主机——>管理——>克隆

（3）修改每台虚拟机的IP，主机名，以及ip-主机的映射

在每台虚拟机上修改IP：sudo vim /etc/sysconfig/network-scripts/ifcfg-ens33
在每台虚拟机修改主机名：sudo vim /etc/hostname
在每台虚拟机上修改映射：sudo vim /etc/hosts

（4）重启：reboote

（5）配置Xshell，分别登录三台虚拟机

3. 安装JDK

（1）下载JDK和Hadoop并上传（可自行网上下载）

链接：https://pan.baidu.com/s/1Us2g54iH6L02-P2HEgP4LA 提取码：fi85

（2）用XShell传输工具将JDK导入到opt目录下面的software文件夹下面

提供一个小技巧，如果Xftp传不上来，可以使用sudo rz传输（可以忽略）

（3）在Linux系统下的opt目录中查看软件包是否导入成功

（4）解压JDK到/opt/module目录下

-C指定解压到哪个目录下
tar -zxvf jdk-8u212-linux-x64.tar.gz -C /opt/module/

（5）配置JDK环境变量

sudo vim /etc/profile

# 刷新环境变量
source /etc/profile
# 查看有没有成功
java -version

4. 安装Hadoop

（1）进入到Hadoop安装包路径下，解压安装到/opt/module下边

tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/

（2）将Hadoop添加到环境变量

sudo vim /etc/profile

source /etc/profile
# 查看是否成功
hadoop

（3）重启（如果Hadoop命令不能用再重启虚拟机）

sudo reboot

（4）查看Hadoop目录结构

重要目录

（1）bin目录：存放对Hadoop相关服务（hdfs，yarn，mapred）进行操作的脚本

（2）etc目录：Hadoop的配置文件目录，存放Hadoop的配置文件

（3）lib目录：存放Hadoop的本地库（对数据进行压缩解压缩功能）

（4）sbin目录：存放启动或停止Hadoop相关服务的脚本

（5）share目录：存放Hadoop的依赖jar包、文档、和官方案例

5. Hadoop运行模式

1）Hadoop官方网站：http://hadoop.apache.org/

2）Hadoop运行模式包括：本地模式、伪分布式模式以及完全分布式模式。

本地模式：单机运行，只是用来演示一下官方案例。生产环境不用。
伪分布式模式：也是单机运行，但是具备Hadoop集群的所有功能，一台服务器模拟一个分布式的环境。个别缺钱的公司用来测试，生产环境不用。
完全分布式模式：多台服务器组成分布式环境。生产环境使用。

1. 本地运行

1）创建在hadoop-3.1.3文件下面创建一个wcinput文件夹

mkdir wcinput

2）在wcinput文件下创建一个word.txt文件

cd wcinput

3）编辑word.txt文件

vim word.txt

4）回到Hadoop目录/opt/module/hadoop-3.1.3

5）执行程序

# 其中的wcinput是输入的路径，wcoutput是输出的路径，输出路径一定不能存在
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount wcinput wcoutput

6）查看结果

执行完程序之后会在wcoutput下生成两个文件

cat wcoutput/part-r-00000

这就是官方开源的一个本地运行的wordcount案例！！！

推荐系统（4）——Hadoop运行环境搭建及运行

Linux相关栏目本月热门文章