Hadoop MapReduce的简单应用Cascading详解

本节向大家简单描述一下Cascading，它是一个简单的Hadoop MapReduce应用，这里和大家分享一下，希望通过本节的介绍大家对Hadoop MapReduce的应用有深刻的理解。

Cascading：一个简单的Hadoop MapReduce应用

Cascading是一个架构在Hadoop上的API，用来创建复杂和容错数据处理工作流。它抽象了集群拓扑结构和配置来快速开发复杂分布式的应用，而不用考虑背后的MapReduce。

Cascading目前依赖于Hadoop提供存储和执行架构，但是CascadingAPI为开发者隔离了Hadoop的技术细节，提供了不需要改变初始流程工作流定义就可以在不同的计算框架内运行的能力。

Cascading使用了“pipeandfilters”(管道和过滤)来定义数据处理进程。它支持分隔，合并，分组和排序操作，这是开发者***需要考虑的操作。NathanMarz提供了一个范例：

GoodbyeMapReduce,HelloCascading.Cascading对于使用Hadoop开发复杂应用是一个不错的解决方案。

这篇文章详细解释了Cascading整个架构和技术细节：AtechnicaloverviewoftheCascadingsystem

Hadoop和MapReduce介绍：

这里我们看一下Hadoop MapReduce各自的概念。Hadoop是Apache开源组织的一个分布式计算开源框架，在很多大型网站上都已经得到了应用，如亚马逊、Facebook和Yahoo等等。它主要由MapReduce的算法执行和一个分布式的文件系统HDFS等两部分组成。一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。　简单地说来，Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。Hadoop实现了一个分布式文件系统（HadoopDistributedFileSystem），简称HDFS。HDFS有着高容错性（fault-tolerent）的特点，并且设计用来部署在低廉的（low-cost）硬件上。而且它提供高传输率（highthroughput）来访问应用程序的数据，适合那些有着超大数据集（largedataset）的应用程序。HDFS放宽了（relax）POSIX的要求（requirements）这样可以流的形式访问（streamingaccess）文件系统中的数据。

HDFS：即HadoopDistributedFileSystem(Hadoop分布式文件系统)

HDFS具有高容错性，并且可以被部署在低价的硬件设备之上。HDFS很适合那些有大数据集的应用，并且提供了对数据读写的高吞吐率。

MapReduce：MapReduce是Google的一项重要技术，它是一个编程模型，用以进行大数据量的计算。对于大数据量的计算，通常采用的处理手法就是并行计算。至少现阶段而言，对许多开发人员来说，并行计算还是一个比较遥远的东西。MapReduce就是一种简化并行计算的编程模型，它让那些没有多少并行计算经验的开发人员也可以开发并行应用。本节关于Hadoop MapReduce的简单应用介绍到这里。

【编辑推荐】

如何实现Cassandra与Hadoop MapReduce的整合？专家指导如何进行Hadoop分布式集群配置 Hadoop集群与Hadoop性能优化 HadoopHbase实现配置简单的单机环境深入剖析Hadoop Hbase

Hadoop MapReduce的简单应用Cascading详解

Hadoop相关栏目本月热门文章