Hadoop环境的搭建（WordCount）

linux系统安装hadoop环境安装hadoop

首先需要通过xftp文件传输将hadoop的.tar.gz（hadoop-3.1.3.tar.gz）文件传输到linux的/opt/software的目录下面

解压hadoop-3.1.3.tar.gz文件到/opt/module这个目录下

[tedu@hadoop105 software]$ tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/

解压成功后会在/opt/module 目录下面看到以下信息

hadoop提供的命令不生效原因是没有去配置hadoop对应的环境变量

配置hadoop的环境变量

配置三个
hadoop的家
path 对应的是hadoop家下面的/bin
path 对应的是hadoop家下面的/sbin

[tedu@hadoop105 profile.d]$ sudo vim /etc/profile.d/my_env.sh

将以下命令输入进去

#HADOOP
export HADOOP_HOME=/opt/module/hadoop-3.1.3
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

配置成功后保存退出

:wq!

使配置文件立即生效

[tedu@hadoop105 profile.d]$ source /etc/profile

就可以测试hadoop的命令
查看hadoop的版本信息

hadoop version

以上界面出现说明成功了

hadoop的目录结构

[tedu@hadoop105 hadoop-3.1.3]$ pwd
/opt/module/hadoop-3.1.3

[tedu@hadoop105 hadoop-3.1.3]$ ll
总用量 176
drwxr-xr-x. 2 tedu tedu    183 9月  12 2019 bin
drwxr-xr-x. 3 tedu tedu     20 9月  12 2019 etc
drwxr-xr-x. 2 tedu tedu    106 9月  12 2019 include
drwxr-xr-x. 3 tedu tedu     20 9月  12 2019 lib
drwxr-xr-x. 4 tedu tedu    288 9月  12 2019 libexec
-rw-rw-r--. 1 tedu tedu 147145 9月   4 2019 LICENSE.txt
-rw-rw-r--. 1 tedu tedu  21867 9月   4 2019 NOTICE.txt
-rw-rw-r--. 1 tedu tedu   1366 9月   4 2019 README.txt
drwxr-xr-x. 3 tedu tedu   4096 9月  12 2019 sbin
drwxr-xr-x. 4 tedu tedu     31 9月  12 2019 share

目录详情

（1）bin 目录：存放对 Hadoop 相关服务（hdfs，yarn，mapred）进行操作的脚本
（2）etc 目录：Hadoop 的配置文件目录，存放 Hadoop 的配置文件
（3）lib 目录：存放 Hadoop 的本地库（对数据进行压缩解压缩功能）
（4）sbin 目录：存放启动或停止 Hadoop 相关服务的脚本
（5）share 目录：存放 Hadoop 的依赖 jar 包、文档、和官方案例
hadoop的官网
hadoop官网

Apache Hadoop
软件库是一个框架，允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千台机器，每台机器都提供本地计算和存储。该库本身不是依靠硬件来提供高可用性，而是设计用于检测和处理应用层的故障，因此在计算机集群之上提供高可用性服务，每台计算机都可能容易出现故障。

启动hadoop级群有三种模式

本地（独立）模式
官网提供的解释

默认情况下，Hadoop 配置为在非分布式模式下作为单个 Java 进程运行。这对于调试很有用。
以下示例复制解压后的 conf 目录以用作输入，然后查找并显示给定正则表达式的每个匹配项。输出写入给定的输出目录。

  $ mkdir input 
  $ cp etc/hadoop/*.xml input 
  $ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar grep input output 'dfs[az.]+' 
  $ cat output/ *

本地版的wordcount的案例（统计单词数量）因为是本地版本的所以统计在linux服务器本机上面

在hadoop跟目录下面创建了一个wcinput的目录文件

[tedu@hadoop106 hadoop-3.1.3]$ mkdir wcinput

进入wcinput目录创建一个word.txt文件

[tedu@hadoop106 hadoop-3.1.3]$ cd wcinput
[tedu@hadoop106 wcinput]$ vim word.txt

写入测试数据

hadoop yarn
hadoop mapreduce
tedu
tedu
gqk
gqk
gqk
gqk
admin
admin
严加一

执行wordcount命令

[tedu@hadoop106 hadoop-3.1.3]$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount wcinput/ ./wcoutput

查看结果

[tedu@hadoop105 wcoutput]$ cat part-r-00000 
admin	2
gqk	4
hadoop	2
mapreduce	1
tedu	2
yarn	1
严加一	1

伪分布式模式
全分布式模式

Hadoop环境的搭建（WordCount）

数据挖掘与分析相关栏目本月热门文章