栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

Hadoop提交任务源码分析

Hadoop提交任务源码分析

文章目录
  • hadoop提交流程源码
  • 1、源码流程
  • 2、提交任务过程中主要事项

hadoop提交流程源码 1、源码流程

//进入Job类的waitForCompletion()方法
waitForCompletion()

submit();

// 1建立连接
	connect();	
		// 1)创建提交Job的代理
		new Cluster(getConfiguration());
			// (1)判断是本地运行环境还是yarn集群运行环境
			initialize(jobTrackAddr, conf); 

// 2 提交job
submitter.submitJobInternal(Job.this, cluster)

	// 1)创建给集群提交数据的Stag路径
	Path jobStagingArea = JobSubmissionFiles.getStagingDir(cluster, conf);

	// 2)获取jobid ,并创建Job路径
	JobID jobId = submitClient.getNewJobID();

	// 3)拷贝jar包到集群
copyAndConfigureFiles(job, submitJobDir);	
	rUploader.uploadFiles(job, jobSubmitDir);

	// 4)计算切片,生成切片规划文件
writeSplits(job, submitJobDir);
		maps = writeNewSplits(job, jobSubmitDir);
		input.getSplits(job);

	// 5)向Stag路径写XML配置文件
writeConf(conf, submitJobFile);
	conf.writeXml(out);

	// 6)提交Job,返回提交状态
status = submitClient.submitJob(jobId, submitJobDir.toString(), job.getCredentials());
2、提交任务过程中主要事项

  1. 在connect方法中,主要通过cluster对象提供一种进入访问mr集群的方式。进入Cluster中,再进入initialize(jobTrackAddr,conf)中包含initProviderList();ProviderList中有YarnClient和LocalClient;通过for循环遍历initProviderList(),并验证参数。

    通过参数mapreduce.framework.name来决定是由什么环境运行
    如果值为yarn 那就是yarn环境
    如果值为local 那就是local环境

  2. 通过当前环境去获取提交器,

    • 验证输出路径是否存在;

    • 提供一个staging临时目录;产生jobID;准备创建staging临时目录+jobID路径

    • 在staging临时目录+jobID的临时目录中上传Job.xml配置文件、切片信息、(jar包–yarn模式)

      集群模式:提交jar包

      本地模式:不提交jar包

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/671413.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号