栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

Spark

Spark

1.Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。

2.Spark是通用并行框架。

3.Spark 是一种与 Hadoop 相似的开源集群计算环境。

4.Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

5.Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。

与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

6.尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoop 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。

7.Spark可用来构建大型的、低延迟的数据分析应用程序。

8.Spark 的性能特点 :
①速度更快。

内存计算下,Spark 比 Hadoop 快100倍。

②易用性。

Spark 提供了80多个高级运算符。

③通用性。

Spark 提供了大量的库,包括Spark Core、Spark SQL、Spark Streaming、MLlib、GraphX。 开发者可以在同一个应用程序中无缝组合使用这些库。

Spark Streaming:构建在Spark上处理Stream数据的框架,基本的原理是将Stream数据分成小的时间片段(几秒),以类似batch批量处理的方式来处理这小部分数据。

④支持多种资源管理器。

Spark 支持 Hadoop YARN,Apache Mesos,及其自带的独立集群管理器。

9.Spark主要的三个特点 :

①高级API剥离了对集群本身的关注,Spark应用开发者可以专注于应用所要做的计算本身。

②Spark速度快,支持交互式计算和复杂算法。

③Spark是一个通用引擎,可用它来完成各种各样的运算,包括SQL查询、文本处理、机器学习等。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/780653.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号