1)问题引出
MapTask的并行度决定Map阶段的任务处理并发度,进而影响到整个Job的处理速度。
思考:1G的数据,启动8个MapTask,可以提高集群的并发处理能力。那么1K的数据,也启动8个MapTask,会提高集群性能吗?MapTask并行任务是否越多越好呢?哪些因素影响了MapTask并行度?
2)MapTask并行度决定机制
数据块: Block是HDFS物理上把数据分成一块一块。数据块是HDFS存储数据单位。
数据切片: 数据切片只是在逻辑上对输入进行分片,并不会在磁盘上将其切分成片进行存储。数据切片是MapReduce程序计算输入数据的单位,一个切片会对应启动一个MapTask。
1.2 Job 提交流程源码和切片源码详解1)Job提交流程源码详解
waitForCompletion() submit(); // 1建立连接 connect(); // 1)创建提交Job的代理 new Cluster(getConfiguration()); // (1)判断是本地运行环境还是yarn集群运行环境 initialize(jobTrackAddr, conf); // 2 提交job submitter.submitJobInternal(Job.this, cluster) // 1)创建给集群提交数据的Stag路径 Path jobStagingArea = JobSubmissionFiles.getStagingDir(cluster, conf); // 2)获取jobid ,并创建Job路径 JobID jobId = submitClient.getNewJobID(); // 3)拷贝jar包到集群 copyAndConfigureFiles(job, submitJobDir); rUploader.uploadFiles(job, jobSubmitDir); // 4)计算切片,生成切片规划文件 writeSplits(job, submitJobDir); maps = writeNewSplits(job, jobSubmitDir); input.getSplits(job); // 5)向Stag路径写XML配置文件 writeConf(conf, submitJobFile); conf.writeXml(out); // 6)提交Job,返回提交状态 status = submitClient.submitJob(jobId, submitJobDir.toString(), job.getCredentials());
2)FileInputFormat切片源码解析(input.getSplits(job))
程序先找到你数据存储的目录
开始遍历处理(规划切片)目录下的每一个文件
遍历第一个文件 ss.txt
获取文件大小 fs.sizeOf(ss.txt)
计算切片大小 computeSplitSize(Math.max(minSize,Math.min(maxSize,blocksize)))=blocksize=128M
默认情况下,切片大小=blocksize
开始切,行程第1个切片:ss.txt——0:128M 第2个切片 ss.txt——128:256M 第3个切片ss.txt——256M:300M
(每次切片时,都要判断切完剩下的部分是否大于块的1.1倍,不大于1.1倍就划分一块切片)
将切片信息写到一个切片规划文件中
整个切片的核心过程在getSplit()方法中完成
InputSplit 只记录了切片的元数据信息,比如起始位置、长度以及所在的节点列表等。
提交切片规划文件到YARN上。YARN上的MRAppMater就可以根据切片规划文件计算开启MapTask个数
1.3 FileInputFormat切片机制切片机制
简单的按照文件的内容长度进行切片切片大小,默认等于Block大小切片时不考虑数据集整体,而是逐个针对每一个文件单独切片
案例分析
输入数据有两个文件
file1.txt 320M file2.txt 10M
经过FileInputFormat的切片机制运算后,行程的切片信息如下:
file1.txt.split1 -- 0~128 file1.txt.split2 -- 128~256 file1.txt.split3 -- 256~320 file2.txt.split1 -- 0~10M
FileInputFormat 切片大小的参数配置
源码中计算切片大小的公式
Math.max(minSize,Math.min(maxSize,blocksize)) mapreduce.input.fileinputformat.split.minsize=1 默认值为1 mapreduce.input.fileinputformat.split.maxsize=Long.MAXValue 默认值 Long.MAXValue 因此,默认情况下,切片大小=blocksize
切片大小设置
maxsize(切片最大值):参数如果调的比blockSize小,则会让切片变小,而且就等于配置的这个参数的值。
minsize(切片最小值):参数调的比blockSize大,则可以让切片变得比blockSize还大
获取切片信息API
//获取切片文件的名称 String name=inputSplit.getPath().getName(); //根据文件类型获取切片信息 FileSplit inputSplit=(FileSplit)context.getInputSplit();
1)FileInputFormat实现类
思考:在运行MapReduce程序时,输入的文件格式包括:基于行的日志文件、二进制格式文件、数据库表等。那么,针对不同的数据类型,MapReduce是如何读取这些数据的呢?
FileInputFormat常见的接口实现类包括:TextInputFormat、KeyValueTextInputFormat、NLineInputFormat、CombineTextInputFormat和自定义InputFormat等。
2)TextInputFormat
TextInputFormat是默认的FileInputFormat实现类。按行读取每条记录。键是存储该行在整个文件中的起始字节偏移量, LongWritable类型。值是这行的内容,不包括任何行终止符(换行符和回车符),Text类型。
以下是一个示例,比如,一个分片包含了如下4条文本记录。
Rich learning form Intelligent learning engine Learning more convenient From the real demand for more close to the enterprise
每条记录表示为以下键/值对
(0,Rich learning form) (20,Intelligent learning engine) (49,Learning more convenient) (74,From the real demand for more close to the enterprise)1.5 CombineTextInputFormat切片机制
框架默认的TextInputFormat切片机制是对任务按文件规划切片,不管文件多小,都会是一个单独的切片,都会交给一个MapTask,这样如果有大量小文件,就会产生大量的MapTask,处理效率极其低下。
1)应用场景:
CombineTextInputFormat用于小文件过多的场景,它可以将多个小文件从逻辑上规划到一个切片中,这样,多个小文件就可以交给一个MapTask处理。
2)虚拟存储切片最大值设置
CombineTextInputFormat.setMaxInputSplitSize(job, `4194304`);// 4m
注意:虚拟存储切片最大值设置最好根据实际的小文件大小情况来设置具体的值。
3)切片机制
生成切片过程包括:虚拟存储过程和切片过程二部分。
(1)虚拟存储过程:
将输入目录下所有文件大小,依次和设置的setMaxInputSplitSize值比较,如果不大于设置的最大值,逻辑上划分一个块。如果输入文件大于设置的最大值且大于两倍,那么以最大值切割一块;当剩余数据大小超过设置的最大值且不大于最大值2倍,此时将文件均分成2个虚拟存储块(防止出现太小切片)。
例如setMaxInputSplitSize值为4M,输入文件大小为8.02M,则先逻辑上分成一个4M。剩余的大小为4.02M,如果按照4M逻辑划分,就会出现0.02M的小的虚拟存储文件,所以将剩余的4.02M文件切分成(2.01M和2.01M)两个文件。
(2)切片过程:
(a)判断虚拟存储的文件大小是否大于setMaxInputSplitSize值,大于等于则单独形成一个切片。 (b)如果不大于则跟下一个虚拟存储文件进行合并,共同形成一个切片。 (c)测试举例:有4个小文件大小分别为1.7M、5.1M、3.4M以及6.8M这四个小文件,则虚拟存储之后形成6个文件块,大小分别为: 1.7M,(2.55M、2.55M),3.4M以及(3.4M、3.4M) 最终会形成3个切片,大小分别为: (1.7+2.55)M,(2.55+3.4)M,(3.4+3.4)M1.6 CombineTextInputFormat案例实操
1)需求
将输入的大量小文件合并成一个切片统一处理。
输入数据,准备4个小文件 a.txt b.txt c.txt d.txt期望一个切片处理4个文件
2)实现过程
(1)不做任何处理,运行1.8节的WordCount案例程序,观察切片个数为4。
number of splits:4
(2)在WordcountDriver中增加如下代码,运行程序,并观察运行的切片个数为1。
驱动类中添加代码如下:
// 如果不设置InputFormat,它默认用的是TextInputFormat.class job.setInputFormatClass(CombineTextInputFormat.class); //虚拟存储切片最大值设置4m CombineTextInputFormat.setMaxInputSplitSize(job, 4194304);
运行结果为1个切片。
number of splits:12、MapReduce工作流程
上面的流程是整个MapReduce最全工作流程,但是Shuffle过程只是从第7步开始到第16步结束,具体Shuffle过程详解,如下:
(1)MapTask收集我们的map()方法(对每一个
(2)从内存缓冲区不断溢出本地磁盘文件,可能会溢出多个文件
(3)多个溢出文件会被合并成大的溢出文件
(4)在溢出过程及合并的过程中,都要调用Partitioner进行分区和针对key进行排序
(5)ReduceTask根据自己的分区号,去各个MapTask机器上取相应的结果分区数据
(6)ReduceTask会抓取到同一个分区的来自不同MapTask的结果文件,ReduceTask会将这些文件再进行合并(归并排序)
(7)合并成大文件后,Shuffle的过程也就结束了,后面进入ReduceTask的逻辑运算过程(从文件中对每一组相同k的
注意:
(1)Shuffle中的缓冲区大小会影响到MapReduce程序的执行效率,原则上说,缓冲区越大,磁盘io的次数越少,执行速度就越快。
(2)缓冲区的大小可以通过参数调整,参数:mapreduce.task.io.sort.mb默认100M。
3、Shuffle 机制3.1 Partition 分区Map方法之后,Reduce方法之前的数据处理过程称之为 Shuffle
问题引出
要求将统计结果按照条件输出到不同文件中(分区)。
比如:将统计结果按照手机归属地不同省份输出到不同文件中(分区)
默认Partition 分区
public class HashPartitionerimplements Partitioner { public int getPartition(K key, V value,int numReduceTasks) { return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks; } }
默认分区是根据key的hashCode对ReduceTasks个数取模得到的。用户没法控制哪个key存储到哪个分区。
自定义Partition步骤
自定义类继承Partitioner,重写getPartition()方法
package com.chif.mapreduce.writable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Partitioner; public class CustomPartitioner extends Partitioner{ @Override public int getPartition(Text text, FlowBean flowBean, int numPartitions) { String phone=text.toString(); //控制分区代码逻辑返回不同的分区代码 if (phone.equals("13560436666")){ return 1; } else if (text.equals("13560436667")){ return 2; } return 0; } }
在Job驱动中,设置自定义Partitioner
//设置自定义Partition job.setPartitionerClass(CustomPartitioner.class);
自定义Partition后,要根据自定义Partitioner的逻辑设置相应数量的ReduceTask
job.setNumReduceTasks(2);
分区总结
如果ReduceTask的数量 > getPartition的结果数,则会多产生几个空的输出文件part-r-000xx;如果 1
例如:假设自定义分区数为 5(自定义Partitioner逻辑代码),则
job.setNumReduceTasks(1); 会正常运行,只不过会产生一个输出文件job.setNumReduceTasks(2); 会报错job.setNumReduceTasks(6); 大于5,程序会正常运行,会产生空文件。
1) 需求
将统计结果按照手机归属地不同省份输出到不同文件中(分区)
(1)输入数据 phone_data.txt
(2)期望输出数据:
手机号136、137、138、139开头都分别放到一个独立的4个文件中,其他开头的放到一个文件中。
2)需求分析
数据输入
13630577991 6960 690 13736230513 2481 24681 13846544121 264 0 13956435636 132 1512 13560439638 918 4938
期望数据输出
文件1 文件2 文件3 文件4 文件5
增加一个ProvincePartitioner分区
136 分区0 137 分区1 138 分区2 139 分区3 其他 分区4
Driver驱动类
//指定自定义数据分区 job.setPartitionerClass(ProvincePartitioner.class); //同时指定相应数量的reduceTask job.setNumReduceTask(5);
在上个案例的基础上,增加一个分区类
package com.chif.mapreduce.writable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Partitioner; public class ProvincePartitioner extends Partitioner{ @Override public int getPartition(Text text, FlowBean flowBean, int numPartitions) { //获取手机号前三位prePhone String phone = text.toString(); String prePhone = phone.substring(0, 3); //定义一个分区号变量partition,根据prePhone设置分区号 int partition; if("136".equals(prePhone)){ partition = 0; }else if("137".equals(prePhone)){ partition = 1; }else if("138".equals(prePhone)){ partition = 2; }else if("139".equals(prePhone)){ partition = 3; }else { partition = 4; } //最后返回分区号partition return partition; } }
在驱动函数中增加自定义数据分区设置和ReduceTask设置
//8 指定自定义分区器 job.setPartitionerClass(ProvincePartitioner.class); //9 同时指定相应数量的ReduceTask job.setNumReduceTasks(5);3.4 WritableComparable排序
排序概述
排序是MapReduce框架中最重要的操作之一。
MapTask和ReduceTask均会对数据按照key进行排序。该操作属于Hadoop的默认行为。任何应用程序中的数据均会被排序,而不管逻辑上是否需要。
默认排序是按照字典顺序排序,且实现该排序的方法是快速排序。
对于MapTask,它会将处理的结果暂时放到环型缓冲区中,当环型缓冲区使用率达到一定阈值后,再对缓冲区的数据进行一次快速排序,并将这些有序数据溢写到磁盘上,而当数据处理完毕后,它会对磁盘上所有文件进行归并排序。
对于ReduceTask,它从每个MapTask上远程拷贝相应的数据文件,如果文件大小超过一定阈值,则溢写写磁盘上,否则存储在内存中。如果磁盘上文件数目达到一定阈值,则进行一次归并排序以生成一个更大文件;如果内存中文件大小或者数目超过一定阈值,则进行一次合并后将数据溢写到磁盘上。当所有数据拷贝完毕后,ReduceTask统一对内存和磁盘上的所有数据进行一次归并排序。
排序分类
部分排序
MapReduce根据输入记录的键值对数据集排序。保证输出的每个文件内部有序。
全排序
最终输出结果只有一个文件,且文件内部有序。实现方式是只设置一个ReduceTask。但该方法在处理大型文件时效率极低,因为一台机器处理所有文件,完全丧失了MapReduce的并行架构。
辅助排序(GroupingComparator分组)
在Reduce端对key进行分组。应用于:在接收的key为bean对象时,想让一个或几个字段相同(全部字段比较不相同)的key进入到同一个reduce方法时,可以采用分组排序。
二次排序
在自定义排序过程中,如果compareTo的判断条件为两个即为二次排序。
自定义排序 WritableComparable 原理分析
bean对象作为key传输,需要实现WritableComparable接口重写compareTo方法,就可以实现排序
@Override
public int compareTo(FlowBean bean) {
int result;
// 按照总流量大小,倒序排列
if (this.sumFlow > bean.getSumFlow()) {
result = -1;
}else if (this.sumFlow < bean.getSumFlow()) {
result = 1;
}else {
result = 0;
}
return result;
}
需求分析
需求:根据手机的总流量进行倒序排序
输入数据
13630577991 6960 690 13736230513 2481 24681 13846544121 264 0 13956435636 132 1512 13560439638 918 4938
输出数据
13736230513 2481 24681 xx 13630577991 6960 690 xx 13560439638 918 4938 xx 13956435636 132 1512 xx 13846544121 264 0 xx
FlowBean实现WritableComparable接口重写compareTo方法
@Override
public int compareTo(FlowBean o) {
//倒序排列,按照总流量从大到小
return this.sumFlow > o.getSumFlow() ? -1 : 1;
}
Mapper类
context.write(bean,手机号)
Reducer类
//循环输出,避免总流量相同情况
for(Text text:values){
context.write(text,key)
}
代码实现
(1)FlowBean对象在在需求1基础上增加了比较功能
package com.chif.mapreduce.WritableComparable; import org.apache.hadoop.io.Writable; import org.apache.hadoop.io.WritableComparable; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; //1 继承Writable接口 public class FlowBean implements Writable, WritableComparable{ private long upFlow;//上行流量 private long downFlow;//下行流量 private long sumFlow;//总流量 //2 提供无参构造 public FlowBean(){ } //3 提供三个参数的getter和setter方法 public long getUpFlow() { return upFlow; } public void setUpFlow(long upFlow) { this.upFlow = upFlow; } public long getDownFlow() { return downFlow; } public void setDownFlow(long downFlow) { this.downFlow = downFlow; } public long getSumFlow() { return sumFlow; } public void setSumFlow(long sumFlow) { this.sumFlow = sumFlow; } public void setSumFlow() { this.sumFlow = this.upFlow+this.downFlow; } //4 实现序列化和反序列化方法,注意顺序一定要保持一致 @Override public void write(DataOutput out) throws IOException { out.writeLong(upFlow); out.writeLong(downFlow); out.writeLong(sumFlow); } @Override public void readFields(DataInput in) throws IOException { this.upFlow=in.readLong(); this.downFlow=in.readLong(); this.sumFlow=in.readLong(); } //5 重写ToString @Override public String toString() { return upFlow + "t" + downFlow + "t" + sumFlow; } @Override public int compareTo(FlowBean o) { //按照总流量比较,倒序排列 if (this.sumFlow > o.sumFlow){ return -1; }else if (this.sumFlow < o.sumFlow){ return 1; }else { return 0; } } }
(2)编写Mapper类
package com.chif.mapreduce.WritableComparable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper; import java.io.IOException; //Map默认读取数据的格式 LongWritable(行号), Text(每一行数据) public class FlowMapper extends Mapper{ private FlowBean outK=new FlowBean(); private Text outV=new Text(); @Override protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { //1 读取一行数据,转成字符串 String line = value.toString(); //2 切割数据 String[] split = line.split("t"); //3 抓取我们需要的数据:手机号,上行流量,下行流量 String phone = split[0]; String up = split[1]; String down = split[2]; //4 封装 outK outV outK.setUpFlow(Long.parseLong(up)); outK.setDownFlow(Long.parseLong(down)); outK.setSumFlow(); outV.set(phone); //5 写出outK outV context.write(outK,outV); } }
(3)编写Reducer类
package com.chif.mapreduce.WritableComparable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Reducer; import java.io.IOException; public class FlowReducer extends Reducer{ @Override protected void reduce(FlowBean key, Iterable values, Context context) throws IOException, InterruptedException { //遍历values集合,循环写出,避免总流量相同的情况 for (Text value : values) { context.write(value,key); } } }
(4)编写Driver类
package com.chif.mapreduce.WritableComparable;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import java.io.IOException;
public class FlowDriver {
public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
//1 获取Job对象
Configuration conf = new Configuration();
//指定hadoop运行时在本地的临时工作目录
conf.set("hadoop.tmp.dir", "D:/tmp/mapreduce_tmp_cache");
Job job = Job.getInstance(conf);
//todo MapTask运行设置
//如果不设置InputFormat,它默认用的是TextInputFormat.class
//job.setInputFormatClass(CombineTextInputFormat.class);
//虚拟存储切片的最大值设置20M
//CombineTextInputFormat.setMaxInputSplitSize(job,20971520);
//todo Shuffle运行设置
//设置自定义Partition分区器
//job.setPartitionerClass(ProvincePartitioner.class);
//todo ReduceTask运行设置
//自定义Partition后,要根据自定义Partitioner的逻辑设置相应数量的ReduceTask
//job.setNumReduceTasks(2);
//2 关联本Driver类 Mapper、Reducer
job.setJarByClass(FlowBean.class);
job.setMapperClass(FlowMapper.class);
job.setReducerClass(FlowReducer.class);
//3 设置Map端输出KV类型
job.setMapOutputKeyClass(FlowBean.class);
job.setMapOutputValueClass(Text.class);
//4 设置程序最终输出的KV类型
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(FlowBean.class);
//6 设置程序的输入输出路径
FileInputFormat.setInputPaths(job,new Path("C:\Users\Chef Liu\Desktop\Big\hadoop\input2"));
FileOutputFormat.setOutputPath(job,new Path("C:\Users\Chef Liu\Desktop\Big\hadoop\output"));
//7 提交Job
boolean b = job.waitForCompletion(true);
System.exit(b?0:1);
}
}
3.6 WritableComparable排序案例实操(区内排序)
1)需求
要求每个省份手机号输出的文件中按照总流量内部排序。
2)需求分析
基于前一个需求,增加自定义分区类,分区按照省份手机号设置。
3)案例实操
(1)增加自定义分区类
package com.chif.mapreduce.WritableComparable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Partitioner; public class ProvincePartitioner extends Partitioner{ @Override public int getPartition(FlowBean flowBean,Text text, int numPartitions) { //获取手机号前三位prePhone String phone = text.toString(); String prePhone = phone.substring(0, 3); //定义一个分区号变量partition,根据prePhone设置分区号 int partition; if("136".equals(prePhone)){ partition = 0; }else if("137".equals(prePhone)){ partition = 1; }else if("138".equals(prePhone)){ partition = 2; }else if("139".equals(prePhone)){ partition = 3; }else { partition = 4; } //最后返回分区号partition return partition; } }
(2)在驱动类中添加分区类
// 设置自定义分区器 job.setPartitionerClass(ProvincePartitioner2.class); // 设置对应的ReduceTask的个数 job.setNumReduceTasks(5);
提示:
如果ReduceTask的数量 > getPartition的结果数,则会多产生几个空的输出文件part-r-000xx;如果 1 Combiner是在每一个MapTask所在的节点运行Reducer是接收全局所有Mapper的输出结果 Combiner的意义就是对每一个MapTask的输出进行局部汇总,以减小网络传输量Combiner能够应用的前提是不能影响最终的业务逻辑,而且,Combiner的输出kv应该根Reducer的输入kv类型要对应起来。 自定义Combiner实现步骤 (a)自定义一个Combiner继承Reducer,重写Reduce方法 (b)在Job驱动类中设置: OutputFormat是MapReduce输出的基类,所有实现MapReduce输出都实现了OutputFormat接口。下面我们介绍几种常见的OutputFormat实现类 OutputFormat实现类
默认输出格式TextOutputFormat 自定义OutputFormat 应用场景:eg:输出数据到Mysql/Hbase/Elasticsearch等存储框架中 自定义OutputFormat步骤 自定义一个类继承FileOutputFormat改写RecordWriter类,集体改写输出数据的方法write()。
4.2 自定义OutputFormat 案例实操
需求分析 需求:过滤输入的log日志,包含liudachu的网站输出到D:/liudachu.log,不包含liudachu的网站输出到D:other.log 输入数据 输出数据 自定义一个OutputFormat类 创建一个类LogRecordWriter继承RecordWriter
创建两个文件的输出流:liudachuOut、otherOut
如果输入数据包含liudachu,输出到liudachuOut流,如果不包含,输出到otherOut流 驱动类Driver 案例实操 (1)编写LogMapper类 (2)编写LogReducer类 (3)自定义一个LogOutputFormat类 (4)编写LogRecordWriter类 (5)编写LogDriver类 (1)Read阶段:MapTask通过InputFormat获得的RecordReader,从输入InputSplit中解析出一个个key/value。 (2)Map阶段:该节点主要是将解析出的key/value交给用户编写map()函数处理,并产生一系列新的key/value。 (3)Collect收集阶段:在用户编写map()函数中,当数据处理完成后,一般会调用OutputCollector.collect()输出结果。在该函数内部,它会将生成的key/value分区(调用Partitioner),并写入一个环形内存缓冲区中。 (4)Spill阶段:即“溢写”,当环形缓冲区满后,MapReduce会将数据写到本地磁盘上,生成一个临时文件。需要注意的是,将数据写入本地磁盘之前,先要对数据进行一次本地排序,并在必要时对数据进行合并、压缩等操作。 溢写阶段详情: 步骤1:利用快速排序算法对缓存区内的数据进行排序,排序方式是,先按照分区编号Partition进行排序,然后按照key进行排序。这样,经过排序后,数据以分区为单位聚集在一起,且同一分区内所有数据按照key有序。 步骤2:按照分区编号由小到大依次将每个分区中的数据写入任务工作目录下的临时文件output/spillN.out(N表示当前溢写次数)中。如果用户设置了Combiner,则写入文件之前,对每个分区中的数据进行一次聚集操作。 步骤3:将分区数据的元信息写到内存索引数据结构SpillRecord中,其中每个分区的元信息包括在临时文件中的偏移量、压缩前数据大小和压缩后数据大小。如果当前内存索引大小超过1MB,则将内存索引写到文件output/spillN.out.index中。 (5)Merge阶段:当所有数据处理完成后,MapTask对所有临时文件进行一次合并,以确保最终只会生成一个数据文件。 当所有数据处理完后,MapTask会将所有临时文件合并成一个大文件,并保存到文件output/file.out中,同时生成相应的索引文件output/file.out.index。 在进行文件合并过程中,MapTask以分区为单位进行合并。对于某个分区,它将采用多轮递归合并的方式。每轮合并mapreduce.task.io.sort.factor(默认10)个文件,并将产生的文件重新加入待合并列表中,对文件排序后,重复以上过程,直到最终得到一个大文件。 让每个MapTask最终只生成一个数据文件,可避免同时打开大量文件和同时读取大量小文件产生的随机读取带来的开销。 (1)Copy阶段:ReduceTask从各个MapTask上远程拷贝一片数据,并针对某一片数据,如果其大小超过一定阈值,则写到磁盘上,否则直接放到内存中。 (2)Sort阶段:在远程拷贝数据的同时,ReduceTask启动了两个后台线程对内存和磁盘上的文件进行合并,以防止内存使用过多或磁盘上文件过多。按照MapReduce语义,用户编写reduce()函数输入数据是按key进行聚集的一组数据。为了将key相同的数据聚在一起,Hadoop采用了基于排序的策略。由于各个MapTask已经实现对自己的处理结果进行了局部排序,因此,ReduceTask只需对所有数据进行一次归并排序即可。 (3)Reduce阶段:reduce()函数将计算结果写到HDFS上。 回顾: MapTask并行度由切片个数决定,切片个数由输入文件和切片规则决定。 思考: ReduceTask并行度由谁决定? 1)设置ReduceTask并行度(个数) ReduceTask的并行度同样影响整个Job的执行并发度和执行效率,但与MapTask的并发数由切片数决定不同,ReduceTask数量的决定是可以直接手动设置: 2)实验:测试ReduceTask多少合适 (1)实验环境:1个Master节点,16个Slave节点:CPU:8GHZ,内存: 2G (2)实验结论: 3)注意事项 RuduceTask=0,表示没有Reduce阶段,输出文件个数和Map个数一致。ReduceTask默认值就是1,所以输出文件个数为一个如果数据分布不均匀。就有可能在Reduce阶段产生数据倾斜ReduceTask数据量并不是任意设置,还要考虑业务逻辑需求,有些情况下,需要计算全局汇总结果,就只能有1个ReduceTask。具体多少个ReduceTask,需要根据集群性能而定如果分区数不是1,但是ReduceTask为1,是否执行分区过程,答案是:不执行分区过程。因为在MapTask的源码中,执行分区的前提是先判断ReduceNum个数是否大于1。不大于1肯定不执行。
5.4 MapTask & ReduceTask源码解析
1)MapTask源码解析流程 2)ReduceTask源码解析流程 Map端的主要工作:为来自不同表或文件的key/value对,打标签以区别不同来源的记录。然后用连接字段作为key,其余部分和新加的标志作为value,最后进行输出。 Reduce端的主要工作:在Reduce端以连接字段作为key的分组已经完成,我们只需要在每一个分组当中将那些来源于不同文件的记录(在Map阶段已经打标志)分开,最后进行合并就ok了。 1)需求分析 通过将关联条件作为Map输出的key,将两表满足Join条件的数据并携带数据所来源的文件信息,发往同一个ReduceTask,在Reduce中进行数据的串联。 2)代码实现 (1)创建商品和订单合并后的TableBean类 (2)编写TableMapper类 (3)编写TableReducer类 (4)编写TableDriver类 4)测试 运行程序查看结果 5)总结 缺点:这种方式中,合并的操作是在Reduce阶段完成,Reduce端的处理压力太大,Map节点的运算负载则很低,资源利用率不高,且在Reduce阶段极易产生数据倾斜。 解决方案:Map端实现数据合并。 1)使用场景 Map Join适用于一张表十分小、一张表很大的场景。 2)优点 思考:在Reduce端处理过多的表,非常容易产生数据倾斜。怎么办? 在Map端缓存多张表,提前处理业务逻辑,这样增加Map端业务,减少Reduce端数据的压力,尽可能的减少数据倾斜。 3)具体办法:采用DistributedCache (1)在Mapper的setup阶段,将文件读取到缓存集合中。 (2)在Driver驱动类中加载缓存。 1)需求 将商品信息表中数据根据商品pid合并到订单数据表中。 2)需求分析 MapJoin适用于关联表中有小表的情形。 DisTributedCacheDriver 缓存文件 读取缓存的文件数据 3)实现代码 (1)先在MapJoinDriver驱动类中添加缓存文件 (2)在MapJoinMapper类中的setup方法中读取缓存文件 “ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库 在运行核心业务MapReduce程序之前,往往要先对数据进行清洗,清理掉不符合用户要求的数据。清理的过程往往只需要运行Mapper程序,不需要运行Reduce程序。 1)需求分析 去除日志中字段个数小于等于11的日志 => 需要在Map阶段对输入的数据根据规则进行过滤清洗。 2)实现代码 (1)编写WebLogMapper类 (2)编写WebLogDriver类 1)输入数据接口:InputFormat (1)默认使用的实现类是:TextInputFormat (2)TextInputFormat的功能逻辑是:一次读一行文本,然后将该行的起始偏移量作为key,行内容作为value返回。 (3)CombineTextInputFormat可以把多个小文件合并成一个切片处理,提高处理效率。 2)逻辑处理接口:Mapper 用户根据业务需求实现其中三个方法:map() setup() cleanup () 3)Partitioner分区 (1)有默认实现 HashPartitioner,逻辑是根据key的哈希值和numReduces来返回一个分区号;key.hashCode()&Integer.MAXVALUE % numReduces (2)如果业务上有特别的需求,可以自定义分区。 4)Comparable排序 (1)当我们用自定义的对象作为key来输出时,就必须要实现WritableComparable接口,重写其中的compareTo()方法。 (2)部分排序:对最终输出的每一个文件进行内部排序。 (3)全排序:对所有数据进行排序,通常只有一个Reduce。 (4)二次排序:排序的条件有两个。 5)Combiner合并 Combiner合并可以提高程序执行效率,减少IO传输。但是使用时必须不能影响原有的业务处理结果。 6)逻辑处理接口:Reducer 用户根据业务需求实现其中三个方法:reduce() setup() cleanup () 7)输出数据接口:OutputFormat (1)默认实现类是TextOutputFormat,功能逻辑是:将每一个KV对,向目标文本文件输出一行。 (2)用户还可以自定义OutputFormat。
Combiner是MR程序中Mapper和Reducer之外的一种组件Combiner组件的父类就是ReducerCombiner和Reducer的区别在于运行的位置
public class WordCountCombiner extends Reducer
job.setCombinerClass(WordCountCombiner.class);
4、OutputFormat 数据输出
4.1 OutputFormat接口实现类
http://www.baidu.com
http://www.google.com
http://www.sohu.com
http://www.sina.com
http://www.liudachu.com
other.log
http://www.baidu.com
http://www.google.com
http://www.sohu.com
http://www.sina.com
liudachu.log
http://www.liudachu.com
//要将自定义的输出格式组件设置到job中
job.setOutputFormatClass(LogOutputFormat.class)
package com.chif.mapreduce.LogOutputFormat;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import java.io.IOException;
public class LogMapper extends Mapper
package com.chif.mapreduce.LogOutputFormat;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
import java.io.IOException;
public class LogReducer extends Reducer
package com.chif.mapreduce.LogOutputFormat;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.RecordWriter;
import org.apache.hadoop.mapreduce.TaskAttemptContext;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import java.io.IOException;
public class LogOutputFormat extends FileOutputFormat
package com.chif.mapreduce.LogOutputFormat;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.RecordWriter;
import org.apache.hadoop.mapreduce.TaskAttemptContext;
import java.io.IOException;
public class LogRecordWriter extends RecordWriter
package com.chif.mapreduce.LogOutputFormat;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import java.io.IOException;
public class LogDriver {
public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
Configuration conf = new Configuration();
//指定hadoop运行时在本地的临时工作目录
conf.set("hadoop.tmp.dir", "D:/tmp/mapreduce_tmp_cache");
Job job = Job.getInstance(conf);
job.setJarByClass(LogDriver.class);
job.setMapperClass(LogMapper.class);
job.setReducerClass(LogReducer.class);
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(NullWritable.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(NullWritable.class);
//设置自定义的outputformat
job.setOutputFormatClass(LogOutputFormat.class);
FileInputFormat.setInputPaths(job,new Path("C:\Users\Chef Liu\Desktop\Big\hadoop\input2"));
//虽然我们自定义了outputformat,但是因为我们的outputformat继承自fileoutputformat
//而fileoutputformat要输出一个_SUCCESS文件,所以在这还得指定一个输出目录
FileOutputFormat.setOutputPath(job,new Path("C:\Users\Chef Liu\Desktop\Big\hadoop\output"));
boolean b = job.waitForCompletion(true);
System.exit(b?0:1);
}
}
5、MapReduce内核源码解析
5.1 MapTask 工作机制
// 默认值是1,手动设置为4
job.setNumReduceTasks(4);
改变ReduceTask(数据量为1GB)
MapTask =16
ReduceTask 1 5 10 15 16 20 25 30 45 60
总时间 892 146 110 92 88 100 128 101 145 104
=================== MapTask ===================
context.write(k, NullWritable.get()); //自定义的map方法的写出,进入
output.write(key, value);
//MapTask727行,收集方法,进入两次
collector.collect(key, value,partitioner.getPartition(key, value, partitions));
HashPartitioner(); //默认分区器
collect() //MapTask1082行 map端所有的kv全部写出后会走下面的close方法
close() //MapTask732行
collector.flush() // 溢出刷写方法,MapTask735行,提前打个断点,进入
sortAndSpill() //溢写排序,MapTask1505行,进入
sorter.sort() QuickSort //溢写排序方法,MapTask1625行,进入
mergeParts(); //合并文件,MapTask1527行,进入
//生成 file.out file.out.index
collector.close(); //MapTask739行,收集器关闭,即将进入ReduceTask
=================== ReduceTask ===================
if (isMapOrReduce()) //reduceTask324行,提前打断点
initialize() // reduceTask333行,进入
init(shuffleContext); // reduceTask375行,走到这需要先给下面的打断点
totalMaps = job.getNumMapTasks(); // ShuffleSchedulerImpl第120行,提前打断点
merger = createMergeManager(context); //合并方法,Shuffle第80行
// MergeManagerImpl第232 235行,提前打断点
this.inMemoryMerger = createInMemoryMerger(); //内存合并
this.onDiskMerger = new OnDiskMerger(this); //磁盘合并
rIter = shuffleConsumerPlugin.run();
eventFetcher.start(); //开始抓取数据,Shuffle第107行,提前打断点
eventFetcher.shutDown(); //抓取结束,Shuffle第141行,提前打断点
copyPhase.complete(); //copy阶段完成,Shuffle第151行
taskStatus.setPhase(TaskStatus.Phase.SORT); //开始排序阶段,Shuffle第152行
sortPhase.complete(); //排序阶段完成,即将进入reduce阶段 reduceTask382行
reduce(); //reduce阶段调用的就是我们自定义的reduce方法,会被调用多次
cleanup(context); //reduce完成之前,会最后调用一次Reducer里面的cleanup方法
6、 Join应用
6.1 Reduce Jion
package com.chif.mapreduce.OrderJion;
import org.apache.hadoop.io.Writable;
import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;
public class TableBean implements Writable {
private String id;//订单id
private String pid;//产品id
private int amount;//产品数量
private String pname;//产品名称
private String flag;//判断是order表还是pd表的标志字段
public TableBean() {
}
public String getId() {
return id;
}
public void setId(String id) {
this.id = id;
}
public String getPid() {
return pid;
}
public void setPid(String pid) {
this.pid = pid;
}
public int getAmount() {
return amount;
}
public void setAmount(int amount) {
this.amount = amount;
}
public String getPname() {
return pname;
}
public void setPname(String pname) {
this.pname = pname;
}
public String getFlag() {
return flag;
}
public void setFlag(String flag) {
this.flag = flag;
}
@Override
public String toString() {
return id + 't' + pname + 't'+ amount;
}
@Override
public void write(DataOutput out) throws IOException {
out.writeUTF(id);
out.writeUTF(pid);
out.writeInt(amount);
out.writeUTF(pname);
out.writeUTF(flag);
}
@Override
public void readFields(DataInput in) throws IOException {
this.id=in.readUTF();
this.pid=in.readUTF();
this.amount=in.readInt();
this.pname=in.readUTF();
this.flag=in.readUTF();
}
}
package com.chif.mapreduce.OrderJion;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.InputSplit;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;
import java.io.IOException;
public class TableMapper extends Mapper
package com.chif.mapreduce.OrderJion;
import org.apache.commons.beanutils.BeanUtils;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
import java.io.IOException;
import java.lang.reflect.InvocationTargetException;
import java.util.ArrayList;
public class TableReducer extends Reducer
package com.chif.mapreduce.OrderJion;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import java.io.IOException;
public class TableDriver {
public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
Configuration conf = new Configuration();
//指定hadoop运行时在本地的临时工作目录
conf.set("hadoop.tmp.dir", "D:/tmp/mapreduce_tmp_cache");
Job job = Job.getInstance(conf);
job.setJarByClass(TableDriver.class);
job.setMapperClass(TableMapper.class);
job.setReducerClass(TableReducer.class);
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(TableBean.class);
job.setOutputKeyClass(TableBean.class);
job.setOutputValueClass(NullWritable.class);
FileInputFormat.setInputPaths(job,new Path("C:\Users\Chef Liu\Desktop\Big\hadoop\input2"));
FileOutputFormat.setOutputPath(job,new Path("C:\Users\Chef Liu\Desktop\Big\hadoop\output"));
boolean b = job.waitForCompletion(true);
System.exit(b?0:1);
}
}
1004 小米 4
1001 小米 1
1005 华为 5
1002 华为 2
1006 格力 6
1003 格力 3
//缓存普通文件到Task运行节点。
job.addCacheFile(new URI("file:///e:/cache/pd.txt"));
//如果是集群运行,需要设置HDFS路径
job.addCacheFile(new URI("hdfs://hadoop102:8020/cache/pd.txt"));
6.4 Map jion案例实操
//加载缓存数据到Task运行节点
job.addCacheFile(new URI("file:///D:/cache/pd.txt"));
//Map端Join的逻辑不需要Reduce阶段,设置reduceTask数量为0
job.setNumReduceTasks(0);
setup()方法中
//1 获取缓存的文件
//2 循环读取缓存文件一行
//3 切割
//4 缓存数据到集合(内存中)
package com.chif.mapreduce.MapJion;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import java.io.IOException;
import java.net.URI;
import java.net.URISyntaxException;
public class MapJoinDriver {
public static void main(String[] args) throws IOException, URISyntaxException, ClassNotFoundException, InterruptedException {
//1 获取job信息
Configuration conf = new Configuration();
//指定hadoop运行时在本地的临时工作目录
conf.set("hadoop.tmp.dir", "D:/tmp/mapreduce_tmp_cache");
Job job = Job.getInstance(conf);
//2 设置加载jar包路径
job.setJarByClass(MapJoinDriver.class);
job.setMapperClass(MapJoinMapper.class);
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass( NullWritable.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(NullWritable.class);
//加载缓存数据到Task运行节点
job.addCacheFile(new URI("file:///D:/cache/pd.txt"));
//Map端Join的逻辑不需要Reduce阶段,设置reduceTask数量为0
job.setNumReduceTasks(0);
//设置输入输出路径
FileInputFormat.setInputPaths(job,new Path("C:\Users\Chef Liu\Desktop\Big\hadoop\input3"));
FileOutputFormat.setOutputPath(job,new Path("C:\Users\Chef Liu\Desktop\Big\hadoop\output"));
boolean b = job.waitForCompletion(true);
System.exit(b?0:1);
}
}
package com.chif.mapreduce.MapJion;
import org.apache.commons.lang3.StringUtils;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.URI;
import java.util.HashMap;
import java.util.Map;
public class MapJoinMapper extends Mapper
7、 数据清洗
package com.chif.mapreduce.ETL;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import java.io.IOException;
public class WebLogMapper extends Mapper
package com.chif.mapreduce.ETL;
import com.chif.mapreduce.LogOutputFormat.LogDriver;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import java.io.IOException;
public class WebLogDriver {
public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
Configuration conf = new Configuration();
Job job = Job.getInstance(conf);
job.setJarByClass(LogDriver.class);
job.setMapperClass(WebLogMapper.class);
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(NullWritable.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(NullWritable.class);
job.setNumReduceTasks(0);
FileInputFormat.setInputPaths(job,new Path("C:\Users\Chef Liu\Desktop\Big\input4"));
FileOutputFormat.setOutputPath(job,new Path("C:\Users\Chef Liu\Desktop\Big\output"));
boolean b = job.waitForCompletion(true);
System.exit(b?0:1);
}
}
8、 MapReduce开发总结



