大数据技术---Spark

一、Spark简介

1、Spark概述
Spark：由美国加州伯克利大学的AMP实验室于2009年开发，基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序。
三大分布式计算系统开源项目：Hadoop、Spark、Storm。
Spark的特点：
（1）运行速度块：使用DAG执行引擎以支持循环数据流与内存计算。
（2）容易使用：支持使用scala、Java、python和R语言进行编程，可以通过spark shell进行交互式编程。
（3）通用性：Spark提供了完整强大的技术栈，包括SQL查询、流式计算、机器学习和图算法等。
（4）运行模式多样：可运行于独立的集群模式中，可运行于Hadoop中，也可运行于Amazon EC2等云环境中，并且可以访问hdfs,hbase,hive等多种数据源。

2、Scala概述
Scala：现代的多范式编程语言，运行于Java平台，并兼容现有的Java程序。
Scala特性：
（1）具备强大的并发性，支持函数式编程，可以更好的支持分布式系统；
（2）兼容Java，运行速度快；
（3）语法简洁，能提供优雅的api。
Scala是spark的主要编程语言，优势是提供了REPL（交互式解释器），提高程序开发效率。

3、Spark与Hadoop对比？
Hadoop缺点：表达能力有限、磁盘IO开销大、延迟高、任务之间的衔接涉及IO开销、在前一个任务执行完成之前，其他任务就无法开始，难以胜任复杂，多阶段的计算任务。
Spark的优点：
（1）Spark计算模式也属于Map Reduce，但不局限于map和reduce操作，还提供了多种数据集操作类型，编程模型比Hadoop mapreduce更灵活。
（2）Spark还提供了内存计算，可将中间结果放到内存中，对于迭代运算效率更高。
（3）Spark基于DAG的任务调度执行机制，要由于Hadoop的迭代执行机制。

二、Spark生态系统

在实际应用中，大数据处理主要包括以下三个类型：
1、复杂的批量数据处理：通常时间跨度在数十分钟到数小时之间。比如Hadoop MapReduce。
2、基于历史数据的交互式查询：通常时间跨度在数十秒到数分钟之间。比如Cloudera Impala。
3、基于实时数据流的数据处理：通常时间跨度在数百毫秒到数秒之间。比如Storm。
可能存在的问题：
1、不同场景之间输入输出数据无法做到无缝共享，通常需要进行数据格式的转换。
2、不同的软件需要不同的开发和维护团队，带来了较高的使用成本。
3、比较难以对同一个集群中的各个系统进行统一的资源协调和分配。
Spark可以部署在资源管理器YARN之上，提高一站式的大数据解决方案。

三、Spark运行架构四、Spark应用

大数据技术---Spark

Java相关栏目本月热门文章