Hadoop-伪分布_大数据系统

Hadoop-伪分布

经过很多年的发展，hadoop生态圈不断的完善和完善，除了核心HDFS和MapReduce以外，Hadoop生态圈还包括zookeeper、Hbase，Hive、pig、Mahout、Sqoop、Flume、Ambari等

接下来我会更好的完善hadoop生态圈。

Ambari：安装、部署、配置和管理工具

zookeeper：分布式协作服务

Hbase：分布式数据库

hive：数据仓库

pig：数据流处理

MapReduce：分布式计算框架

YARN：资源调度和管理框架

HDFS：分布式文件系统

Sqoop：数据库ETL

Flume：日志收集

HDFS是进行存储的，YARN是进行调度的。

一、配置环境集群，这个环节我们都是在hadoop下进行的。

1、首先需要在hadoop下，所以我们要切换到hadoop下。

/opt/module/hadoop-3.1.3/etc/hadoop

设置hadoop-env.sh文件

vi hadoop-env.sh

进去之后找到JAVA_HOME，后面的路径是自己的路径，一定是自己的路径。

2、设置core-site.xml文件

vi core-site.xml


# 进来之后把一下复制进去，一定要注意configuration，前后都不要忘记。

 
        fs.defaultFS
        hdfs://hadoop100:9820



    
        hadoop.data.dir
        /opt/module/hadoop-3.1.3/data

再次强调一定是自己的主机名。

3、设置hdfs-site.xml文件

vi hdfs-site.xml






        dfs.replication
        1

二、启动集群

1、格式化NameNode（第一次启动时格式化，以后就不要总格式化）

hdfs namenode –format

2.、启动namenode、datanode

hdfs  - -daemon  start  namenode
hdfs  --daemon start datanode

输入jps查看进程，若出现namenode、datanode则算成功

3、配置yarn-site.xml

vi yarn-site.xml








yarn.nodemanager.aux-services
mapreduce_shuffle



yarn.resourcemanager.hostname
hadoop100  #自己的当前的主机名

 
  yarn.nodemanager.env-whitelist        JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME

4、配置mapred-site.xml

vi mapred-site.xml






                mapreduce.framework.name
                yarn

5、启动resourcemanager、nodemanager（分别启动）

yarn --daemon start resourcemanager
yarn --daemon start nodemanager

jps查看java进程，出现resourcemanager、nodemanager则启动成功。

Hadoop-伪分布

大数据系统相关栏目本月热门文章