栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

MapReduce之job配置信息介绍

MapReduce之job配置信息介绍

一.job

hadoop中的MapReduce可以使用Java进行MapReduce的逻辑撰写。其中就需要job进行相关配置。job作为MapReduce的配置信息以及启动项直接打包成jar包,hadoop可以运行这个jar包实现mapreduce的功能。本文主要从源码中,将job的配置项信息提取出来,希望对大家对于hadoop的学习和工作有所帮助。

二、job的方法详细介绍
返回值方法描述
StringgetTrackingURL()获取将显示某些作业进度信息的 URL
StringgetJobFile()获取提交的作业配置的路径
LonggetStartTime()获取作业开始时间
LonggetFinishTime()获取作业结束时间
StringgetSchedulingInfo()获取作业调度信息
JobPrioritygetPriority()获取作业的优先级
StringgetJobName()获取作业的名称
StringgetHistoryUrl()获取历史的URL路径
booleanisRetired()判断节点是否已经退役
ClustergetCluster()获取集群
voidsetCluster设置集群
StringgetTaskFailureEventString()返回导致作业失败的原因
TaskReport[]getTaskReports获取作业任务的当前状态信息。
floatmapProgress()获取Map作业执行进度
floatreduceProgress()获取Reduce作业执行进度
floatcleanupProgress()获取作业清理任务的进度
floatsetupProgress()获取初始化任务的进度
booleanisComplete()检查作业是否完成
booleanisSuccessful()判断作业是否成功
voidkillJob()关闭正在运行的作业
voidsetPriority(JobPriority jobPriority)设置作业的优先级
voidsetPriorityAsInteger(int jobPriority)设置作业优先级
intconvertPriorityToInteger(JobPriority jobPriority)将一个作业的优先级返回为int类型,其数值范围为0-5,数值越大优先级越大
TaskCompletionEvent[]getTaskCompletionEvents(final int startFrom, final int numEvents)获取指示组件任务完成(成功/失败)的事件
TaskCompletionEvent[]getTaskCompletionEvents(final int startFrom)获取指示组件任务完成(成功/失败)的事件
booleankillTask(final TaskAttemptID taskId, final boolean shouldFail)关闭指示的任务
voidkillTask(final TaskAttemptID taskId)关闭指示的任务
voidfailTask(final TaskAttemptID taskId)指定任务失败
CountersgetCounters()获取当前作业的当前计数
String[]getTaskDiagnostics(final TaskAttemptID taskid)获取给定任务尝试的诊断消息
voidsetNumReduceTasks(int tasks)设定ReduceTask的数量
voidsetWorkingDirectory(Path dir)设置默认文件系统的当前工作目录。
void**setInputFormatClass(Class cls ) **设置job的输入格式(InputFormat)
void**setOutputFormatClass(Class cls) **设置job的输出格式(OutputFormat)
voidsetMapperClass(Class cls )设置job的Mapper
voidsetJarByClass(Class cls)通过查找给定类的来源来设置 Jar
voidsetJar(String jar)设置作业 jar
voidsetUser(String user)为作业(job)设置报告的用户名称
voidsetCombinerClass(Class cls)为作业设置组合器类(Combiner)
voidsetReducerClass(Class cls)为作业设置Reducer
voidsetPartitionerClass(Class cls )设置job的Partitioner,用于作业切片
voidsetMapOutputKeyClass(Class theClass)设置Map作业输出键值对的键类型
voidsetMapOutputValueClass(Class theClass)设置Map作业输出的键值对的值类型
voidsetOutputKeyClass(Class theClass)设置作业输出键值对的键类型
voidsetOutputValueClass(Class theClass)设置作业输出键值对的值类型
voidsetCombinerKeyGroupingComparatorClass (Class cls)定义比较器,该比较器控制将哪些键组合在一起以进行对组合器的单次调用
voidsetSortComparatorClass(Class cls)定义排序比较器
voidsetGroupingComparatorClass(Class cls)定义比较器,该比较器控制将哪些键组合在一起以进行对Reducer.reduce(Object, Iterable, Reducer.Context)的单个调用
voidsetJobName(String name)设置用户指定的作业名称。
voidsetSpeculativeExecution(boolean speculativeExecution)为此作业打开或关闭推测执行
voidsetMapSpeculativeExecution(boolean speculativeExecution)为Map任务打开或关闭此作业的推测执行
voidsetReduceSpeculativeExecution(boolean speculativeExecution)为reduce 任务打开或关闭此作业的推测执行
voidsetJobSetupCleanupNeeded(boolean needed)指定作业是否需要作业设置和作业清理
voidsetCacheArchives(URI[] archives)设置一个缓存集合
voidsetCacheFiles(URI[] files)设置缓存文件
voidaddCacheArchive(URI uri)增加本地缓存
voidaddCacheFile(URI uri)增加本地缓存文件
voidaddFileToClassPath(Path file)将文件路径添加到当前的类路径条目集 它还将文件添加到缓存
voidaddArchiveToClassPath(Path archive)将归档路径添加到当前的类路径条目集
voidcreateSymlink()最初打算启用符号链接,但目前无法禁用符号链接
voidsetMaxMapAttempts(int n)设置运行Map任务的最大尝试次数
voidsetMaxReduceAttempts(int n)设置运行Reduce任务的最大尝试次数
voidsetProfileEnabled(boolean newValue)设置系统是否应该为此作业中的某些任务收集分析器信息
voidsetProfileParams(String value)设置探查器配置参数
voidsetProfileTaskRange(boolean isMap, String newValue)设置Map的范围或缩小到轮廓
voidsetCancelDelegationTokenUponJobCompletion(boolean value)设置允许 JobTracker 在作业完成时取消 HDFS 委托令牌的标志
voidsetUseNewAPI()默认为新 API,除非它们被明确设置或使用旧的 mapper 或 reduce 属性
voidsetSharedCacheUploadPolicies(Configuration conf,Map policies, boolean areFiles)设置共享缓存上传策略配置参数
MapgetSharedCacheUploadPolicies(Configuration conf, boolean areFiles)从配置参数反序列化共享缓存上传策略的映射
MapgetFileSharedCacheUploadPolicies(Configuration conf)获取文件的共享缓存上传策略
MapgetArchiveSharedCacheUploadPolicies( Configuration conf)获取}的共享缓存上传策略
voidconnect()连接
booleanisConnected()判断是否连接
JobSubmittergetJobSubmitter(FileSystem fs, ClientProtocol submitClient)仅用于通过单元测试进行模拟,获取作业提交
voidsubmit()将作业提交到集群并立即返回
booleanwaitForCompletion(boolean verbose)将作业提交到集群并等待它完成
booleanmonitorAndPrintJob()在取得进展和任务失败时实时监控作业和打印状态
voidprintTaskEvents(TaskCompletionEvent[] events,Job.TaskStatusFilter filter, boolean profiling, IntegerRanges mapRanges,IntegerRanges reduceRanges)输出任务事件
intgetProgressPollInterval(Configuration conf)monitorAndPrintJob() 打印状态的间隔
intgetCompletionPollInterval(Configuration conf)waitForCompletion() 应该检查的时间间隔
TaskStatusFiltergetTaskOutputFilter(Configuration conf)获取任务输出过滤器
voidsetTaskOutputFilter(Configuration conf,TaskStatusFilter newValue)修改配置以设置任务输出过滤器
ReservationIdgetReservationId()获取提交作业的预留
voidsetReservationId(ReservationId reservationId)设置作业提交到的预留
voidclose()关闭job
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/699804.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号