hadoop_大数据系统

hadoop

core-site.xml 配置
hdfs-site.xml 配置
mapred-site.xml 配置
yarn-site.xml 配置
slaves 配置
HadoopHA启动步骤说明

1. core-site.xml 配置


	fs.defaultFS
	hdfs://hadoop1/





	hadoop.tmp.dir
	/opt/tmp/hadoop/data





	ha.zookeeper.quorum
	hadoop1:2181,hadoop2:2181,hadoop3:2181





	hadoop.proxyuser.bigdata.hosts
	*


	hadoop.proxyuser.bigdata.groups
	*

2. hdfs-site.xml 配置



	fs.replication
	2




	dfs.nameservices
	myns1




	dfs.ha.namenodes.myns1
	nn1,nn2




	dfs.namenode.rpc-address.myns1.nn1
	hadoop1:9000




	dfs.namenode.http-address.myns1.nn1
	hadoop1:50070




	dfs.namenode.rpc-address.myns1.nn2
	hadoop2:9000




	dfs.namenode.http-address.myns1.nn2
	hadoop2:50070




	dfs.namenode.shared.edits.dir
	qjournal://hadoop1:8485;hadoop2:8485;hadoop3:8485/myns1




	dfs.journalnode.edits.dir
	/opt/tmp/hadoop/journaldata




	dfs.ha.automatic-failover.enabled
	true





	dfs.client.failover.proxy.provider.myns1
	org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider




	dfs.ha.fencing.methods
	
		sshfence
		shell(/bin/true)
	




	dfs.ha.fencing.ssh.private-key-files
	/home/账户名/.ssh/id_rsa
	




	dfs.ha.fencing.ssh.connect-timeout
	30000




	dfs.webhdfs.enabled
	true

3. mapred-site.xml 配置


	mapreduce.framework.name
	yarn





	mapreduce.jobhistory.address
	hadoop1:10020





	mapreduce.jobhistory.webapp.address
	hadoop1:19888

4. yarn-site.xml 配置


	yarn.resourcemanager.ha.enabled
	true





	yarn.resourcemanager.cluster-id
	yrc





	yarn.resourcemanager.ha.rm-ids
	rm1,rm2





	yarn.resourcemanager.hostname.rm1
	hadoop1




	yarn.resourcemanager.hostname.rm2
	hadoop2





	yarn.resourcemanager.zk-address
	hadoop1:2181,hadoop2:2181,hadoop3:2181





	yarn.nodemanager.aux-services
	mapreduce_shuffle





	yarn.log-aggregation.retain-seconds
	86400





	yarn.resourcemanager.recovery.enabled
	true





	yarn.resourcemanager.store.class
	org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore

5. slaves 配置

将集群datanode节点机器名放在这里，换行即可，如：
hadoop1
hadoop2
hadoop3

6. HadoopHA启动步骤说明

(注意：一定要配置好环境变量，不然命令找不到。）

1、分别在（每个）机器上启动zookeeper集群（jps看到QuorumPeerMain进程）
    zkServer.sh start
	
	
2、（每个）机器上启动 journalnode(最好是奇数台机器)
   (hadoop-daemon.sh start journalnode)
   启动完毕后jps能看到JournalNode进程
   
   
3、在（一个）namenode节点上进行格式化
	hadoop namenode -format
	注释说明：（格式化成功后在配置的data目录下，有个dfs，里面有name和data，因为没有启动集群，data是空的因为格式化后暂时没有内容）
			  （name中存储元数据，data存真数据）
			  （name下有current，下面有4个文件，就是元数据信息）
   
   
4、在（格式化后namenode的机器）上找到存放数据的data目录，然后拷贝到另外一个机器备份的data目录下，保持初始元数据一致。
     下面是例子，具体目录自己决定。
     scp -r data hadoop02:/opt/temp
     scp -r data hadoop03:/opt/temp
	 
	 
5、在第任何一个namenode上执行zkfc -formatZK操作(#格式化zookeeper)，命令如下：
   hdfs zkfc -formatZK
   
   
   启动进程
6、start-dfs.sh
7、start-yarn.sh


8、测试（如果只是练习非必要）
   1）分别在每个机器上jps查看状态
   2）分别访问两个namenode机器上的50070界面，查看状态是否一个是Active，另外一个是Standby
   3）也可以测试访问一下yarn集群
   4）高可用测试，测试主备切换
   （将active状态的namenode进程干掉，kill -9 xxxxid）
   （可以再使用单节点启动方式启动namenode：hadoop-daemon.sh start namenode）


	在另外一台resourceManager机器上单独启动resourceManager进程：
	yarn-daemon.sh start resourcemanager


	yarn高可用测试和hadoop一样，访问的端口是8088

	启动历史服务器
	mr-jobhistory-daemon.sh start historyserver

	yarn-daemon.sh start nodemanager
	yarn-daemon.sh start resourcemanager

	然后两台机器分别启动resourcemanager即可

	命令方式查看hadoop状态：hdfs haadmin -getServiceState nn2
	命令方式查看yarn状态：yarn rmadmin -getServiceState rm1

hadoop

大数据系统相关栏目本月热门文章