栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

无共享技术

无共享技术

MPP 无共享技术和架构

        大规模并行处理 (MPP) 是使大数据科学成为可能的首批推动者至一. MPP 的无共享数据库技术, 已成为大数据集分析的标准平台. 在 MPP 数据库中, 数据在多个处理服务器 (计算节点) 之间进行分区 (逻辑分布), 每个服务器都有自己的专用内存来处理本地数据.  处理服务器间的通信通常由管理节点控制, 并通过网络互联进行. 因为该架构没有磁盘共享, 也不发生内存争用, 因此称作"无共享". 这种类型的计算架构具有线性可扩展性, 可以通过可扩展的平台适应增长.

基于分布式文件的数据库

        分布式文件的解决方案技术, 如 Hadoop, 使用类似于 MPP 无共享 (用于文件存储的 MPP 基础) 的配置, 能够跨处理器共享文件. 在 Hadoop 上, 数据可被移动到 MPP 无共享数据库, 以便运行算法. 

        在大规模分布式计算环境下, 协调各个进程的执行是一个很大的挑战. 最困难的是合理处理系统的部分失效问题 (在不知道一个远程进程是否挂了的情况下) 同时还需要继续完成整个计算. 有了 MapReduce 这样的分布式处理框架, 程序员不必操心系统失效的问题, 因为框架能够检测到失败的任务并重新在正常的机器上执行. 正因为采用的是无共享 (shared-nothing) 框架, MapReduce 才能够呈现出这种特性, 这意味着各个任务之间是彼此独立的.

数据库内算法

        数据库内算法 (In-database algorithm) 使用类似 MPP 的原则. 

参考资料

DAMA 数据管理知识体系指南 (DAMA-DMBOK 2) 第14章 大数据和数据科学 14.3 工具 p402

Hadoop 权威指南 第1章 初始 Hadoop 1.5.2 网格计算 p11

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/285885.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号