栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

超易懂的MapReduce思想讲解

超易懂的MapReduce思想讲解

文章目录
      • 统计词频
      • 词出现在哪些文章中
      • MapReduce架构揭秘

本文通过两个例子来理解什么是MapReduce。

统计词频


注:上面左边的0,1,2表示的是3篇文章0,1,2。

注:2,3,4其实就是map服务器群。5,6,7,8其实就是reduce服务器群。

注:split其实就是map服务器群从服务器1取数据。shuffle其实就是reduce服务器群从map服务器群取数据。

词出现在哪些文章中

我们知道,一个词会出现在很多文章中,现在我们就要统计这个信息。

MapReduce架构揭秘


我们可以看到,和前面的例子一模一样。就是多了橙色和绿色。很简单,绿色就是你,橙色就是你写的监督程序。你的监督程序会一直监控着整个服务器群工作,即:命令如何划分数据,命令这些数据给哪些服务器去map,命令map好了之后给哪些服务器去reduce等等。

补充:
MapReduce是面向大数据并行处理的计算模型,其已经成为当今工业处理大数据的标准。这是谷歌公司提出来的。

首先大数据涉及两个方面:分布式存储系统和分布式计算框架。前者的理论基础是GFS。后者的理论基础为MapReduce。

下面是谷歌公司的3个重要技术。

采用MapReduce思想的框架有:Hadoop、spark。
Hadoop是一个能够对大量数据进行分布式处理的软件框架,实现了Google的MapReduce编程模型和框架,能够把应用程序分割成许多的小的工作单元,并把这些单元放到任何集群节点上执行。

Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。现在形成一个高速发展应用广泛的生态系统。

这两者哪个更好?有人比喻hadoop是刚需,spark是趋势。

参考:https://www.bilibili.com/video/BV1Vb411m7go?from=search&seid=4171377334387267759&spm_id_from=333.337.0.0



转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/355037.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号