Spark_大数据系统

Spark

1.Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。

2.Spark是通用并行框架。

3.Spark 是一种与 Hadoop 相似的开源集群计算环境。

4.Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。

5.Spark 是在 Scala 语言中实现的，它将 Scala 用作其应用程序框架。

与 Hadoop 不同，Spark 和 Scala 能够紧密集成，其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

6.尽管创建 Spark 是为了支持分布式数据集上的迭代作业，但是实际上它是对 Hadoop 的补充，可以在 Hadoop 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。

7.Spark可用来构建大型的、低延迟的数据分析应用程序。

8.Spark 的性能特点 :
①速度更快。

内存计算下，Spark 比 Hadoop 快100倍。

②易用性。

Spark 提供了80多个高级运算符。

③通用性。

Spark 提供了大量的库，包括Spark Core、Spark SQL、Spark Streaming、MLlib、GraphX。开发者可以在同一个应用程序中无缝组合使用这些库。

Spark Streaming:构建在Spark上处理Stream数据的框架，基本的原理是将Stream数据分成小的时间片段(几秒)，以类似batch批量处理的方式来处理这小部分数据。

④支持多种资源管理器。

Spark 支持 Hadoop YARN，Apache Mesos，及其自带的独立集群管理器。

9.Spark主要的三个特点：

①高级API剥离了对集群本身的关注，Spark应用开发者可以专注于应用所要做的计算本身。

②Spark速度快，支持交互式计算和复杂算法。

③Spark是一个通用引擎，可用它来完成各种各样的运算，包括SQL查询、文本处理、机器学习等。

Spark