- 统计词频
- 词出现在哪些文章中
- MapReduce架构揭秘
本文通过两个例子来理解什么是MapReduce。
统计词频
注:上面左边的0,1,2表示的是3篇文章0,1,2。
注:2,3,4其实就是map服务器群。5,6,7,8其实就是reduce服务器群。
注:split其实就是map服务器群从服务器1取数据。shuffle其实就是reduce服务器群从map服务器群取数据。
词出现在哪些文章中我们知道,一个词会出现在很多文章中,现在我们就要统计这个信息。
MapReduce架构揭秘
我们可以看到,和前面的例子一模一样。就是多了橙色和绿色。很简单,绿色就是你,橙色就是你写的监督程序。你的监督程序会一直监控着整个服务器群工作,即:命令如何划分数据,命令这些数据给哪些服务器去map,命令map好了之后给哪些服务器去reduce等等。
补充:
MapReduce是面向大数据并行处理的计算模型,其已经成为当今工业处理大数据的标准。这是谷歌公司提出来的。
首先大数据涉及两个方面:分布式存储系统和分布式计算框架。前者的理论基础是GFS。后者的理论基础为MapReduce。
下面是谷歌公司的3个重要技术。
采用MapReduce思想的框架有:Hadoop、spark。
Hadoop是一个能够对大量数据进行分布式处理的软件框架,实现了Google的MapReduce编程模型和框架,能够把应用程序分割成许多的小的工作单元,并把这些单元放到任何集群节点上执行。
Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。现在形成一个高速发展应用广泛的生态系统。
这两者哪个更好?有人比喻hadoop是刚需,spark是趋势。
参考:https://www.bilibili.com/video/BV1Vb411m7go?from=search&seid=4171377334387267759&spm_id_from=333.337.0.0



