栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Java

【初识大数据】4、大数据学习路线

Java 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

【初识大数据】4、大数据学习路线

文章目录
    • 大数据学习路线
      • 1.1 基础
      • 1.2 Hadoop
      • 1.3实时计算
      • 1.4 Spark

大数据学习路线 1.1 基础

1、基础JAVA语言(Java SE)

  • 变量 类型 循环 if
  • 面向对象:类、封装、集成、多态
  • I/O:输入流、输出流——>HDFS会用到
  • 反射、泛型——>MapReduce程序
  • JDBC: 操作关系型数据库(RDBMS)——>Hive

2、Linux基础: Linux基本操作/常用命令(见初识大数据二/三)
3、SQL基础: select(重点)insert、update、delete
----> Hive、Spark、SQL都会用到
----> 大数据的终极目标:使用SQL分析大数据

1.2 Hadoop
(1)数据储存:HDFS(Hadoop Distributed File System)
(2)数据计算:MapReduce(Java程序):在Hadoop 2.x以后,在Yarn容器---> 实现离线计算
(3)Hive:基于HDFS智商的数据仓库,支持SQL语句
(4)HBase:基于HDFS智商的NoSQL数据库
(5)ZooKeeper:实现HA(High Availability高可用性)的功能
(3)其他组件(生态圈):Pig、Flume、Sqoop
1.3实时计算
(1)Redis内存NoSQL数据库
		Redis Cluster:分布式解决方案
(2)Apache Storm:进行实时计算(流式计算)

以上都是用JAVA实现开发,以下是Scala语言开发


1.4 Spark

只有数据计算,没有数据的存储(依赖HDFS)

(1)Scala编程语言:多范式的编程语言(支持多种方法编程:1、面向对象  2、函数式编程)
(2)SPark Core:内核,相当于MapReduce
				最重要的概念:RDD(弹性分布式数据集)
(3)Spark SQL:类似Hive,支持SQL语句
(4)Spark Streaming:处理流式计算的模块,类似Storm
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/821999.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号