栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

第一篇 第一章(大数据的概述)

第一篇 第一章(大数据的概述)

文章目录
    • 一、大数据概述
      • 1.1 数据的产生与发展
      • 1.2 大数据的基础知识
      • 1.3 大数据架构


一、大数据概述 1.1 数据的产生与发展
whenwhowhat
2003年GoogleGoogle File System
2005年YahooHadoop
2008年CCC《大数据计算:在商务、科学和社会领域创建革命性突破》
2009年AMPLabSpark
2011年麦肯锡《大数据:创新、竞争和生产力》
2012年世界经济论坛《大数据,大影响》
2015年国务院《促进大数据发展行动纲要》
2016年党中央《大数据“十三五”规划》
1.2 大数据的基础知识

1.一定的Java知识
2.Linux的基本操作

1.3 大数据架构
Hadoop核心详细介绍
HDFS分布式文件系统,用于对大型文件的处理和拆分,为构建大规模集群和高可用的文件处理打下基础
MapReduce分布式数据处理和执行环境,用于对大规模数据集进行运算
Hive基于hadoop的一个数据仓库工具,可将结构化的数据文件映射为数据库表,并提供简单SQL查询功能,可以将SQL转化为MapReduce进行运算
Hbase分布式的、面向列的开源数据库,它适合于类似大数据的非结构化的数据存储的数据库
Sqoop一款开源的数据传输工具,主要用于在Hadoop与传统的数据库间数据的传递
Flume由Cloudera提供的一个高可用、高可靠,分布式的海量日志采集、聚合和传输的系统
Spark核心详细介绍
RDD弹性分布式数据集,是分布式内存的抽象概念,它提供了高效的数据流处理
Spark SQl它是用来处理结构化数据的Spark组件,提供了Dataframes的可编程抽象模型,可视为分布式的SQL查询引擎
Spark Streaming它是基于Spark核心的流式计算的拓展,具有高吞吐量和容错能力强的特点
MLlib一个Spark的扩展的机器学习库,包括通用的学习算法和工具
KafKa一种高吞吐量、分布式的发布订阅消息系统,它可以处理消费者规模消息的数据
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/695997.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号