实用工具小学数学练习字帖生成在线画板函数绘制拼音字母表在线词典黄历查询中国历史 Excel函数模拟请求 json格式化

栏目分类:

子分类:

名师互学网

名师互学网用户登录

快速导航

当前搜索

当前分类

前沿技术软件开发系统运维产品运营生活办公面试经验考试题库

实用工具

学习工具小学数学练习字帖生成在线画板函数绘制拼音字母表在线词典黄历查询亲戚关系计算安全期计算中国历史 Excel函数模拟请求 json格式化浏览器指纹

名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

第一篇第一章（大数据的概述）

大数据系统更新时间：2026-04-04 16:59:58 发布时间：1549天前 IT归档最新发布模块sitemap 名妆网法律咨询聚返吧英语巴士网伯小乐网商动力

文章目录

- 一、大数据概述
- - 1.1 数据的产生与发展
  - 1.2 大数据的基础知识
  - 1.3 大数据架构

一、大数据概述 1.1 数据的产生与发展

when	who	what
2003年	Google	Google File System
2005年	Yahoo	Hadoop
2008年	CCC	《大数据计算：在商务、科学和社会领域创建革命性突破》
2009年	AMPLab	Spark
2011年	麦肯锡	《大数据：创新、竞争和生产力》
2012年	世界经济论坛	《大数据，大影响》
2015年	国务院	《促进大数据发展行动纲要》
2016年	党中央	《大数据“十三五”规划》

1.2 大数据的基础知识

1.一定的Java知识
2.Linux的基本操作

1.3 大数据架构

Hadoop核心	详细介绍
HDFS	分布式文件系统，用于对大型文件的处理和拆分，为构建大规模集群和高可用的文件处理打下基础
MapReduce	分布式数据处理和执行环境，用于对大规模数据集进行运算
Hive	基于hadoop的一个数据仓库工具，可将结构化的数据文件映射为数据库表，并提供简单SQL查询功能，可以将SQL转化为MapReduce进行运算
Hbase	分布式的、面向列的开源数据库，它适合于类似大数据的非结构化的数据存储的数据库
Sqoop	一款开源的数据传输工具，主要用于在Hadoop与传统的数据库间数据的传递
Flume	由Cloudera提供的一个高可用、高可靠，分布式的海量日志采集、聚合和传输的系统

Spark核心	详细介绍
RDD	弹性分布式数据集，是分布式内存的抽象概念，它提供了高效的数据流处理
Spark SQl	它是用来处理结构化数据的Spark组件，提供了Dataframes的可编程抽象模型，可视为分布式的SQL查询引擎
Spark Streaming	它是基于Spark核心的流式计算的拓展，具有高吞吐量和容错能力强的特点
MLlib	一个Spark的扩展的机器学习库，包括通用的学习算法和工具
KafKa	一种高吞吐量、分布式的发布订阅消息系统，它可以处理消费者规模消息的数据

转载请注明：文章转载自 www.mshxw.com

本文地址：https://www.mshxw.com/it/695997.html

上一篇算法 - 常用工具类整理

下一篇 Linux虚拟机的安装

大数据系统相关栏目本月热门文章

热门相关搜索

路由器设置木托盘宝塔面板儿童python教程心情低落朋友圈 vim 双一流学科专升本我的学校日记学校西点培训学校汽修学校情书化妆学校塔沟武校异形模板西南大学排名最精辟人生短句 6步教你追回被骗的钱南昌大学排名清朝十二帝北京印刷学院排名北方工业大学排名北京航空航天大学排名首都经济贸易大学排名中国传媒大学排名首都师范大学排名中国地质大学(北京)排名北京信息科技大学排名中央民族大学排名北京舞蹈学院排名北京电影学院排名中国戏曲学院排名河北政法职业学院排名河北经贸大学排名天津中德应用技术大学排名天津医学高等专科学校排名天津美术学院排名天津音乐学院排名天津工业大学排名北京工业大学耿丹学院排名北京警察学院排名天津科技大学排名北京邮电大学(宏福校区)排名北京网络职业学院排名北京大学医学部排名河北科技大学排名河北地质大学排名河北体育学院排名

关于我们文章归档网站地图联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号：晋ICP备2021003244-6号