- spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室 开发的通用内存并行计算框架,用来构建大型的、低延迟的数据分析应用程序。它扩展了广泛使用的MapReduce计算
模型。高效的支撑更多计算模式,包括交互式查询和流处理。spark的一个主要特点是能够在内存中进行计算,及时依赖磁盘进行复杂的运算,Spark依然比MapReduce更加高效。
- 中间结果输出:基于MapReduce的计算引擎通常会将中间结果输出到磁盘上,进行存储和容错。出于任务管道承接的,考虑,当一些查询翻译到MapReduce任务时,往往会产生多个Stage,而这些串联的Stage又依赖于底层文件系统(如HDFS)来存储每一个Stage的输出结果。
- Spark是MapReduce的替代方案,而且兼容HDFS、Hive,可融入Hadoop的生态系统,以弥补MapReduce的不
- 下面是spark的安装
- 首先找到spark的压缩包 可以上spark.apache,org 官网上下载
- tar -zxf spark-2.3.4-bin-hadoop2.6.tgz 6 解压文件
- mv spark-2.3.4-bin-hadoop2.6 soft/spark234 移动文件
- 修改配置文件 cd /soft/spark234/conf/
- cp slaves.template salves
- cp spark-env.sh.template spark-env.sh
- 修改配置文件
- vim salves
这里的localhost 以后需要改成映射下集群控制虚拟机的ip 比如hd01 hd02
这里是单机不需要修改
13. vim spark-env.sh
export SPARK_MASTER_HOST=node1 #主节点IP
export SPARK_MASTER_PORT=7077 #任务提交端口
export SPARK_WORKER_CORES=2 #每个worker使用2核
export SPARK_WORKER_MEMORY=3g #每个worker使用3g内存
export SPARK_MASTER_WEBUI_PORT=8888 #修改spark监视窗口的端口默认8080
export SPARK_MASTER_HOST=192.168.80.181 export SPARK_MASTER_PORT=7077 export SPARK_WORKER_CORES=2 export SPARK_WORKER_MEMORY=3g export SPARK_MASTER_WEBUI_PORT=8888
14.cd ../sbin/ 进入sbin目录
修改配置文件
vim spark-config.sh
15. 在sbin目录启动spark
因为启动命令和hadoop的启动命令相同 所以只能在sbin目录下启动文件
./start-all.sh
./stop-all.sh
16.启动成功
网址是192.168.80.181:8888



