Spark2.4.3基本原理与安装

spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室开发的通用内存并行计算框架，用来构建大型的、低延迟的数据分析应用程序。它扩展了广泛使用的MapReduce计算

模型。高效的支撑更多计算模式，包括交互式查询和流处理。spark的一个主要特点是能够在内存中进行计算，及时依赖磁盘进行复杂的运算，Spark依然比MapReduce更加高效。

中间结果输出：基于MapReduce的计算引擎通常会将中间结果输出到磁盘上，进行存储和容错。出于任务管道承接的，考虑，当一些查询翻译到MapReduce任务时，往往会产生多个Stage，而这些串联的Stage又依赖于底层文件系统（如HDFS）来存储每一个Stage的输出结果。
Spark是MapReduce的替代方案，而且兼容HDFS、Hive，可融入Hadoop的生态系统，以弥补MapReduce的不
下面是spark的安装
首先找到spark的压缩包可以上spark.apache,org 官网上下载
tar -zxf spark-2.3.4-bin-hadoop2.6.tgz 6 解压文件
mv spark-2.3.4-bin-hadoop2.6 soft/spark234 移动文件
修改配置文件 cd /soft/spark234/conf/
cp slaves.template salves
cp spark-env.sh.template spark-env.sh
修改配置文件
vim salves

这里的localhost 以后需要改成映射下集群控制虚拟机的ip 比如hd01 hd02

这里是单机不需要修改

13. vim spark-env.sh

export SPARK_MASTER_HOST=node1 #主节点IP
export SPARK_MASTER_PORT=7077 #任务提交端口
export SPARK_WORKER_CORES=2 #每个worker使用2核
export SPARK_WORKER_MEMORY=3g #每个worker使用3g内存
export SPARK_MASTER_WEBUI_PORT=8888 #修改spark监视窗口的端口默认8080

export SPARK_MASTER_HOST=192.168.80.181
export SPARK_MASTER_PORT=7077 
export SPARK_WORKER_CORES=2 
export SPARK_WORKER_MEMORY=3g 
export SPARK_MASTER_WEBUI_PORT=8888

14.cd ../sbin/ 进入sbin目录

修改配置文件

vim spark-config.sh

15. 在sbin目录启动spark

因为启动命令和hadoop的启动命令相同所以只能在sbin目录下启动文件

./start-all.sh

./stop-all.sh

16.启动成功

网址是192.168.80.181:8888

Spark2.4.3基本原理与安装

大数据系统相关栏目本月热门文章