Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,是一个能够对大量数据进行分布式处理的软件框架,以一种可靠、高效、可伸缩的数据处理处理解决方案。以Hadoop分布式文件系统 (HDFS,Hadoop Distributed Filesystem)和MapReduce(Google MapReduce的开源实现)为核心,通过HDFS文件系统和MapReduce算法进行存储资源、内存和程序的有效利用与管理,提供了对用户系统底层细节透明的分布式基础架构。HDFS和MapReduce共同组成了Hadoop分布式系统体系结构的核心。
HDFS为海量的数据提供了存储,最主要的HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。而MapReduce为海量的数据提供了计算。(



