大规模并行处理 (MPP) 是使大数据科学成为可能的首批推动者至一. MPP 的无共享数据库技术, 已成为大数据集分析的标准平台. 在 MPP 数据库中, 数据在多个处理服务器 (计算节点) 之间进行分区 (逻辑分布), 每个服务器都有自己的专用内存来处理本地数据. 处理服务器间的通信通常由管理节点控制, 并通过网络互联进行. 因为该架构没有磁盘共享, 也不发生内存争用, 因此称作"无共享". 这种类型的计算架构具有线性可扩展性, 可以通过可扩展的平台适应增长.
基于分布式文件的数据库分布式文件的解决方案技术, 如 Hadoop, 使用类似于 MPP 无共享 (用于文件存储的 MPP 基础) 的配置, 能够跨处理器共享文件. 在 Hadoop 上, 数据可被移动到 MPP 无共享数据库, 以便运行算法.
在大规模分布式计算环境下, 协调各个进程的执行是一个很大的挑战. 最困难的是合理处理系统的部分失效问题 (在不知道一个远程进程是否挂了的情况下) 同时还需要继续完成整个计算. 有了 MapReduce 这样的分布式处理框架, 程序员不必操心系统失效的问题, 因为框架能够检测到失败的任务并重新在正常的机器上执行. 正因为采用的是无共享 (shared-nothing) 框架, MapReduce 才能够呈现出这种特性, 这意味着各个任务之间是彼此独立的.
数据库内算法数据库内算法 (In-database algorithm) 使用类似 MPP 的原则.
参考资料DAMA 数据管理知识体系指南 (DAMA-DMBOK 2) 第14章 大数据和数据科学 14.3 工具 p402
Hadoop 权威指南 第1章 初始 Hadoop 1.5.2 网格计算 p11



