切片的规则我们需要通过阅读源代码来了解。首先我们来看下hadoop中默认的两个参数配置
1.默认参数官网地址:http://hadoop.apache.org/docs/stable/hadoop-mapreduce-client/hadoop-mapreduce-client-core/mapred-default.xml
mapreduce.job.split.metainfo.maxsize 10000000
mapreduce.input.fileinputformat.split.minsize 0
2. 源码查看
注意:SPLIT_SLOP = 1.1,即当划分后剩余文件大小除splitSize大于1.1时,循环继续,小于1.1时退出循环,将剩下的文件大小归到一个切片上去。
// 128MB
long blockSize = file.getBlockSize();
// 128MB
long splitSize = computeSplitSize(blockSize, minSize, maxSize);
// 文件的大小 260MB
long bytesRemaining = length;
// 第一次 260/128=2.x > 1.1
// 第二次 132/128=1.03 <1.1 不执行循环
while (((double) bytesRemaining)/splitSize > SPLIT_SLOP) {
// 获取块的索引
int blkIndex = getBlockIndex(blkLocations, length-bytesRemaining);
// 将块的信息保存到splits集合中
splits.add(makeSplit(path, length-bytesRemaining, splitSize,
blkLocations[blkIndex].getHosts(),
blkLocations[blkIndex].getCachedHosts()));
// 260-128=132MB
bytesRemaining -= splitSize;
}
// 将剩余的132MB添加到splits集合中
if (bytesRemaining != 0) {
int blkIndex = getBlockIndex(blkLocations, length-bytesRemaining);
splits.add(makeSplit(path, length-bytesRemaining, bytesRemaining,
blkLocations[blkIndex].getHosts(),
blkLocations[blkIndex].getCachedHosts()));
}
3.切片总结


