五天了解大数据｜Day1 邂逅Spark

What is Spark？

～ is a multi-language engine for executing data engineering, data science , and machine learning on single-node machines or clusters.

What is the relationship between Spark and Hadoop? Hadoop:

大数据生态运行慢给了Spark出生的土壤 Spark:

基于内存，快支持多种语言——容易使用功能全易融合 Using：

日志文件，长安区数据的流交流机器学习数据分析师交互式分析各系统间的数据集成和清洗 Core：

Spark Core

提供～最核心功能，是下面几个板块扩展的基础

Spark SQL

可以使用SQL操作结构化数据的组键

Spark Streaming

Spark平台上针对实时数据进行流式计算的组件，提供了丰富的处理数据流的API

Spark MLlib

～提供的一个机器学习算法库，学起来较困难

Spark GraphX

～面向图计算提供的框架与算法库

The Arch of Sys in Spark

~采用了分布式计算模型的Master—Slave模型。Master是对应集群中含有Master进程的结点，Slave是集群中含有Worker进程结点。

ClusterManager：在Standalone模式中即为Master（主节点），控制整个集群，监控Worker。在YARN模式中为资源管理器。Worker：从节点，负责控制计算节点，启动Executor或Driver。在YARN模式中为NodeManager，负责计算节点的控制Driver：运行Application的main（）函数并创建SparkContext。Executor：执行器，在worker node上执行任务的组件、用于启动线程池运行任务。每个Application拥有独立的一组Executors。SparkContext：整个应用的上下文，控制应用的生命周期。 Conclude

挺好的通识读物，希望后面会有让人亮眼的操作了解了新的工具Spark，对于本来就是大数据专业的我可以说算是开光了。师傅引进门，修行靠个人，与群友共勉。

五天了解大数据｜Day1 邂逅Spark

大数据系统相关栏目本月热门文章