1. 定制一台虚拟机模板
2. 克隆虚拟机
3. 安装JDK
4. 安装Hadoop
5. Hadoop的运行
1. 定制一台虚拟机模板( 0)安装模板虚拟机,IP地址192.168.10.100、主机名称hadoop100、内存4G、硬盘50G
前两篇完成了这个工作,接下来继续
(1)hadoop100虚拟机配置要求
(1)使用yum安装需要虚拟机可以正常上网,yum安装前可以先测试下虚拟机联网情况
[root@hadoop100 ~]# ping www.baidu.com PING www.baidu.com (14.215.177.39) 56(84) bytes of data. 64 bytes from 14.215.177.39 (14.215.177.39): icmp_seq=1 ttl=128 time=8.60 ms 64 bytes from 14.215.177.39 (14.215.177.39): icmp_seq=2 ttl=128 time=7.72 ms
(2)安装epel-release
注:Extra Packages for Enterprise Linux是为“红帽系”的操作系统提供额外的软件包,适用于RHEL、CentOS和Scientific Linux。相当于是一个软件仓库,大多数rpm包在官方 repository 中是找不到的)
yum install -y epel-release
如果提示错误该PID被锁定:直接杀死进程号就行了。
( 2)关闭防火墙,关闭防火墙开机自启
systemctl stop firewalld.service systemctl disable firewalld.service
查看状态:systemctl status firewalld.service
注意:在企业开发时,通常单个服务器的防火墙时关闭的。公司整体对外会设置非常安全的 防火墙。
(3)卸载虚拟机自带的JDK
查询自带的JDK rpm -qa | grep -i java
一条命令卸载所有自带的JDK,切换一下到root rpm -qa | grep -i java | xargs -n1 rpm -e --nodeps
rpm -qa:查询所安装的所有rpm软件包
grep -i:忽略大小写
xargs -n1:表示每次只传递一个参数
rpm -e –nodeps:强制卸载软件
注意:如果在安装虚拟机的时候,选择的是最小化安装,那么就不会有自带的JDK,无需操作
(4)在opt目录下创建两个文件夹,module和software用于存放软件包
sudo mkdir module sudo mkdir software
(5)重启虚拟机:reboot
一台虚拟机的模板完毕!
2. 克隆虚拟机(1)关闭虚拟机
(2)右击主机——>管理——>克隆
(3)修改每台虚拟机的IP,主机名,以及ip-主机的映射
在每台虚拟机上修改IP:sudo vim /etc/sysconfig/network-scripts/ifcfg-ens33
在每台虚拟机修改主机名:sudo vim /etc/hostname
在每台虚拟机上修改映射:sudo vim /etc/hosts
(4)重启:reboote
(5)配置Xshell,分别登录三台虚拟机
(1)下载JDK和Hadoop并上传(可自行网上下载)
链接:https://pan.baidu.com/s/1Us2g54iH6L02-P2HEgP4LA 提取码:fi85
(2)用XShell传输工具将JDK导入到opt目录下面的software文件夹下面
提供一个小技巧,如果Xftp传不上来,可以使用sudo rz传输(可以忽略)
(3)在Linux系统下的opt目录中查看软件包是否导入成功
(4)解压JDK到/opt/module目录下
-C指定解压到哪个目录下 tar -zxvf jdk-8u212-linux-x64.tar.gz -C /opt/module/
(5)配置JDK环境变量
sudo vim /etc/profile
# 刷新环境变量 source /etc/profile # 查看有没有成功 java -version4. 安装Hadoop
(1)进入到Hadoop安装包路径下,解压安装到/opt/module下边
tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/
(2)将Hadoop添加到环境变量
sudo vim /etc/profile
source /etc/profile # 查看是否成功 hadoop
(3)重启(如果Hadoop命令不能用再重启虚拟机)
sudo reboot
(4)查看Hadoop目录结构
重要目录
(1)bin目录:存放对Hadoop相关服务(hdfs,yarn,mapred)进行操作的脚本
(2)etc目录:Hadoop的配置文件目录,存放Hadoop的配置文件
(3)lib目录:存放Hadoop的本地库(对数据进行压缩解压缩功能)
(4)sbin目录:存放启动或停止Hadoop相关服务的脚本
(5)share目录:存放Hadoop的依赖jar包、文档、和官方案例
5. Hadoop运行模式1)Hadoop官方网站:http://hadoop.apache.org/
2)Hadoop运行模式包括:本地模式、伪分布式模式以及完全分布式模式。
- 本地模式:单机运行,只是用来演示一下官方案例。生产环境不用。
- 伪分布式模式:也是单机运行,但是具备Hadoop集群的所有功能,一台服务器模拟一个分布式的环境。个别缺钱的公司用来测试,生产环境不用。
- 完全分布式模式:多台服务器组成分布式环境。生产环境使用。
1. 本地运行
1)创建在hadoop-3.1.3文件下面创建一个wcinput文件夹
mkdir wcinput
2)在wcinput文件下创建一个word.txt文件
cd wcinput
3)编辑word.txt文件
vim word.txt
4)回到Hadoop目录/opt/module/hadoop-3.1.3
5)执行程序
# 其中的wcinput是输入的路径,wcoutput是输出的路径,输出路径一定不能存在 hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount wcinput wcoutput
6)查看结果
执行完程序之后会在wcoutput下生成两个文件
cat wcoutput/part-r-00000
这就是官方开源的一个本地运行的wordcount案例!!!



