大数据技术实验一-在ubuntu18.04中安装伪分布式Hadoop并使用自带wordcount案例

必要时转载请标明出处
本文是在ubuntu上安装Hadoop的操作，关于如何在centOS上安装Hadoop可参考 https://blog.csdn.net/hgxiaojiujiu/article/details/120382331

实验一熟悉常用的Linux操作和Hadoop操作一、实验目的

（1）掌握Linu虚拟机的安装方法。Hadoop在Linux操作系统上运行可以发挥最佳性能。鉴于目前很多读者正在使用Windows操作系统，因此，为了完成本书的后续实验，这里有必要通过本实验让读者掌握在Windows操作系统上搭建Linux虚拟机的方法。
（2）掌握一些常用的Linux命令。本书中的所有实验都在Linux操作系统中完成，因此，需要读者熟悉一些常用的Linux命令。
（3）掌握Hadoop的伪分布式安装方法。很多读者并不具备集群环境，而Hadoop操作需要在一台机器上模拟一个小的集群，因此，需要通过本实验让读者掌握在单机上进行Hadoop的伪分布式安装方法。
（4）掌握Hadoop的常用操作。熟悉使用一些基本的Shell命令对Hadoop进行操作，包括创建目录，复制文件，查看文件等。

二、实验平台

 操作系统：Windows操作系统或者Ubuntu操作系统（推荐）
 虚拟机软件：推荐使用的开源虚拟机软件为VirtualBox。VirtualBox是一款功能强大的免费虚拟机软件，不仅具有鲜明的特色、优异的性能，而且简单易用，可虚拟的操作系统包括Windows、macOS、openBSD、Solaris、IBM OS2,甚至Android 4.0操作系统等。读者可以在Windows操作系统上安装VirtualBox软件，然后再VirtualBox上安装并运行Linux操作系统，本次实验默认的Linux的发行版为Ubuntu18.04（或者Ubuntu16.04）。
 Hadoop版本：3.1.3。

三、实验内容和要求四、实验报告五、实验操作 1.在vm虚拟机上安装ubuntu18.04桌面版操作系统

采用华为镜像下载ubuntu18.04系统速度较快。https://repo.huaweicloud.com/apache/hadoop/core/hadoop-3.1.3/

2.将hadoop和jdk上传到ubuntu上，并解压文件。

3.配置基础环境ip、hostname、firewalld、ssh免密码登录、JDK

首先使用命令 ssh-keygen -t rsa

使用命令 ll ~/.ssh/ 找到生成的公钥和密钥文件

将公钥文件拷贝到需要免密码登录的机器上面。集群分布也一样。

完成后，使用 ssh whj-bigdata01直接访问 whj-bigdata01这台机器，不再需要输入密码验证。

4.启动和操作Hadoop 4.1 修改Hadoop的配置文件

主要修改下面这几个文件： hadoop-env.sh、core-site.xml、hdfs-site.xml 、mapred-site.xml、yarn-site.xml、workers。
注：在ubuntu系统中提前创建好需要的文件夹和文件，centos系统则不需要。

4.2 格式化HDFS
在Hadoop目录下执行命令 bin/hdfs namenode -format

HDFS格式化成功。

Hadoop界面，端口号8088

HDFS weui界面，网页端口号为9870

5.HDFS的相关操作

（1）为Hadoop用户在HDFS 中创建用户目录“/user/hadoop”
使用命令 hdfs dfs -mkdir -p /user/Hadoop

（2）接着在 HDFS的目录“/user/hadoop”下,创建 test文件夹，并查看文件列表。
使用上一步类似的命令即可
(3)将Linux操作系统本地的“~/.bashrc”文件上传到 HDFS的test文件夹中,并查看test。
使用命令 hdfs dfs -put ~/.bashrc /user/hadoop/test 上传文件
使用命令 hdfs dfs -ls /user/hadoop/test 查看列表
(4)将HDFS test文件夹复制到Linux操作系统本地文件系统的“usr/local/hadoop”目录下。
使用命令hdfs dfs -get /user/hadoop/test /usr/local/hadoop/

6.Hadoop自带的WordCount案例

在此目录下执行命令hadoop jar hadoop-mapreduce-examples-3.1.3.jar wordcount /wordcount /wordcount_out,完成后查看目录wordcount_out中的文件。

大数据技术实验一-在ubuntu18.04中安装伪分布式Hadoop并使用自带wordcount案例

大数据系统相关栏目本月热门文章