栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 系统运维 > 运维 > Linux

推荐系统(4)——Hadoop运行环境搭建及运行

Linux 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

推荐系统(4)——Hadoop运行环境搭建及运行

Hadoop环境搭建包括VM,JDK,Hadoop的安装测试

        1. 定制一台虚拟机模板

        2. 克隆虚拟机

        3. 安装JDK

        4. 安装Hadoop        

        5. Hadoop的运行

1. 定制一台虚拟机模板

        ( 0)安装模板虚拟机,IP地址192.168.10.100、主机名称hadoop100、内存4G、硬盘50G

        前两篇完成了这个工作,接下来继续

        (1)hadoop100虚拟机配置要求

                (1)使用yum安装需要虚拟机可以正常上网,yum安装前可以先测试下虚拟机联网情况

[root@hadoop100 ~]# ping www.baidu.com
PING www.baidu.com (14.215.177.39) 56(84) bytes of data.
64 bytes from 14.215.177.39 (14.215.177.39): icmp_seq=1 ttl=128 time=8.60 ms
64 bytes from 14.215.177.39 (14.215.177.39): icmp_seq=2 ttl=128 time=7.72 ms

                (2)安装epel-release

                   注:Extra Packages for Enterprise Linux是为“红帽系”的操作系统提供额外的软件包,适用于RHEL、CentOS和Scientific Linux。相当于是一个软件仓库,大多数rpm包在官方 repository 中是找不到的)

yum install -y epel-release

                    如果提示错误该PID被锁定:直接杀死进程号就行了。

       ( 2)关闭防火墙,关闭防火墙开机自启

systemctl stop firewalld.service
systemctl disable firewalld.service

        查看状态:systemctl status firewalld.service        

        注意:在企业开发时,通常单个服务器的防火墙时关闭的。公司整体对外会设置非常安全的            防火墙。

        (3)卸载虚拟机自带的JDK

查询自带的JDK
rpm -qa | grep -i java
一条命令卸载所有自带的JDK,切换一下到root
rpm -qa | grep -i java | xargs -n1 rpm -e --nodeps

        rpm -qa:查询所安装的所有rpm软件包

        grep -i:忽略大小写

        xargs -n1:表示每次只传递一个参数

        rpm -e –nodeps:强制卸载软件

        注意:如果在安装虚拟机的时候,选择的是最小化安装,那么就不会有自带的JDK,无需操作

        (4)在opt目录下创建两个文件夹,module和software用于存放软件包

sudo mkdir module
sudo mkdir software

        (5)重启虚拟机:reboot

        一台虚拟机的模板完毕!

2. 克隆虚拟机

        (1)关闭虚拟机

        (2)右击主机——>管理——>克隆

        

         (3)修改每台虚拟机的IP,主机名,以及ip-主机的映射

                在每台虚拟机上修改IP:sudo vim /etc/sysconfig/network-scripts/ifcfg-ens33
                在每台虚拟机修改主机名:sudo vim /etc/hostname
                在每台虚拟机上修改映射:sudo vim /etc/hosts

                     

        (4)重启:reboote

        (5)配置Xshell,分别登录三台虚拟机
           

3. 安装JDK

         (1)下载JDK和Hadoop并上传(可自行网上下载)

                链接:https://pan.baidu.com/s/1Us2g54iH6L02-P2HEgP4LA  提取码:fi85 

         (2)用XShell传输工具将JDK导入到opt目录下面的software文件夹下面

                提供一个小技巧,如果Xftp传不上来,可以使用sudo rz传输(可以忽略)

         (3)在Linux系统下的opt目录中查看软件包是否导入成功

         (4)解压JDK到/opt/module目录下

-C指定解压到哪个目录下
tar -zxvf jdk-8u212-linux-x64.tar.gz -C /opt/module/

        (5)配置JDK环境变量

sudo vim /etc/profile

# 刷新环境变量
source /etc/profile
# 查看有没有成功
java -version

4. 安装Hadoop

       (1)进入到Hadoop安装包路径下,解压安装到/opt/module下边 

tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/

      (2)将Hadoop添加到环境变量

sudo vim /etc/profile

source /etc/profile
# 查看是否成功
hadoop

    (3)重启(如果Hadoop命令不能用再重启虚拟机)

 sudo reboot

    (4)查看Hadoop目录结构

        重要目录

        (1)bin目录:存放对Hadoop相关服务(hdfs,yarn,mapred)进行操作的脚本

        (2)etc目录:Hadoop的配置文件目录,存放Hadoop的配置文件

        (3)lib目录:存放Hadoop的本地库(对数据进行压缩解压缩功能)

        (4)sbin目录:存放启动或停止Hadoop相关服务的脚本

        (5)share目录:存放Hadoop的依赖jar包、文档、和官方案例

5. Hadoop运行模式

        1)Hadoop官方网站:http://hadoop.apache.org/ 

        2)Hadoop运行模式包括:本地模式、伪分布式模式以及完全分布式模式。

  • 本地模式:单机运行,只是用来演示一下官方案例。生产环境不用。
  • 伪分布式模式:也是单机运行,但是具备Hadoop集群的所有功能,一台服务器模拟一个分布式的环境。个别缺钱的公司用来测试,生产环境不用。
  • 完全分布式模式:多台服务器组成分布式环境。生产环境使用。

1. 本地运行

        1)创建在hadoop-3.1.3文件下面创建一个wcinput文件夹

       mkdir wcinput

        2)在wcinput文件下创建一个word.txt文件

        cd wcinput

        3)编辑word.txt文件

        vim word.txt 

         

        4)回到Hadoop目录/opt/module/hadoop-3.1.3

        5)执行程序

# 其中的wcinput是输入的路径,wcoutput是输出的路径,输出路径一定不能存在
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount wcinput wcoutput

        6)查看结果

        执行完程序之后会在wcoutput下生成两个文件

          

cat wcoutput/part-r-00000

        

        这就是官方开源的一个本地运行的wordcount案例!!!

 

 

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/868795.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号