经过很多年的发展,hadoop生态圈不断的完善和完善,除了核心HDFS和MapReduce以外,Hadoop生态圈还包括zookeeper、Hbase,Hive、pig、Mahout、Sqoop、Flume、Ambari等
接下来我会更好的完善hadoop生态圈。
Ambari:安装、部署、配置和管理工具
zookeeper:分布式协作服务
Hbase:分布式数据库
hive:数据仓库
pig:数据流处理
MapReduce:分布式计算框架
YARN:资源调度和管理框架
HDFS:分布式文件系统
Sqoop:数据库ETL
Flume:日志收集
HDFS是进行存储的,YARN是进行调度的。
一、配置环境集群,这个环节我们都是在hadoop下进行的。
1、首先需要在hadoop下,所以我们要切换到hadoop下。
/opt/module/hadoop-3.1.3/etc/hadoop
设置hadoop-env.sh文件
vi hadoop-env.sh
进去之后找到JAVA_HOME,后面的路径是自己的路径,一定是自己的路径。
2、设置core-site.xml文件
vi core-site.xml # 进来之后把一下复制进去,一定要注意configuration,前后都不要忘记。fs.defaultFS hdfs://hadoop100:9820 hadoop.data.dir /opt/module/hadoop-3.1.3/data
再次强调一定是自己的主机名。
3、设置hdfs-site.xml文件
vi hdfs-site.xmldfs.replication 1
二、启动集群
1、格式化NameNode(第一次启动时格式化,以后就不要总格式化)
hdfs namenode –format
2.、启动namenode、datanode
hdfs - -daemon start namenode hdfs --daemon start datanode
输入jps查看进程,若出现namenode、datanode则算成功
3、配置yarn-site.xml
vi yarn-site.xmlyarn.nodemanager.aux-services mapreduce_shuffle yarn.resourcemanager.hostname hadoop100 #自己的当前的主机名yarn.nodemanager.env-whitelist JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME
4、配置mapred-site.xml
vi mapred-site.xmlmapreduce.framework.name yarn
5、启动resourcemanager、nodemanager(分别启动)
yarn --daemon start resourcemanager yarn --daemon start nodemanager
jps查看java进程,出现resourcemanager、nodemanager则启动成功。



