初识大数据之MapReduce——一个分布式的离线并行计算框架

前言

对于没有接触过大数据技术的人来说，听到大数据这个名词可能会感到很陌生，会很疑惑大数据是个什么东西。
当年刚毕业的我就是这样。几年前刚毕业的时候，浏览各种招聘网站，难免会看到职位类型为大数据招聘信息，年轻的我就把它当作了某种高级程序员，也曾经对它有过憧憬，想着自己能不能成为一个大数据工程师呢。但是点进去看到各种不认识的编程语言后，当时连C语言都学的勉勉强强的我就望而却步了。
直到今年四月份，大数据这个名词才重新闯入我的生活，当时来到北大青鸟咨询的时候，说是可以学云计算或者Java，还有大数据。当时大数据这个名词一下子吸引了我，怀揣着成为一名大数据工程师的憧憬就报名了。
但是在前期学习了一两个月的Java后，我依然没有搞清楚大数据究竟是做什么的，直到我们开始接触Hadoop三大组件后，才对大数据有了自己一点浅显的理解。今天在这里给大家介绍一下Hadoop三大组件之一——MapReduce，带大家初始大数据的庐山真面目。

MapReduce整体架构图

1.概述 1.定义

MapReduce是一个分布式运算程序的编程框架

MapReduce的核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完成的分布式运算程序，并发运行在一个Hadoop集群上

2.优缺点优点

缺点

1.不擅长实时计算 MySQL

2.不擅长流式计算 SparkStreaming flink

3.不擅长DAG有向无环图 spark graphx (基于内存)

3.核心编程思想

序列化

序列化概述什么是序列化

序列化：把内存中的对象，转换成字节序列(或者其他数据传输协议)以便于存储到磁盘(持久化)和网络传输

反序列化:将字节序列或者是磁盘的持久化数据，转换成内存中的对象

为什么要序列化

序列化可以存储“活的”对象

为什么不用java的序列化

java的序列化是一个重量级序列化框架(Serializable),一个对象被序列化后，会附带很多额外的信息(校验信息，Header，继承体系等),不便于在网络中高效传输

hadoop序列化框架只加上了简单的校验信息，因为是在系统内部传输，不需要那么多信息

紧凑：存储空间少

快速：传输速度快

互操作性：跨语言传输

MapReduce框架原理

shuffle中有排序、分区、压缩、合并
FileImputFormat实现类:TextInputFormat、CombineTextInputFormat、自定义InputFormat。以前还有(KeyValueTextInputFormat、LineInputFormat等等)
数据切片：数据切片只是在逻辑上对输入进行分片，并不会在磁盘上将其切分成片进行存储。数据切片是MapReduce程序计算输入数据的单位，一个切片会对应启动一个MapTask

FileInputFormat切片源码解析

切片机制

获取切片信息API

//获取切片的文件名称
String name = inputSplit.getPath().getName();
//根据文件类型获取切片信息
FileSplit inputSplit = (FileSplit)context.getInputSplit();