- 追风赶月莫停留,平芜尽处是春山。
- 环境
- Spark 完全分布式模式的搭建
- 一、下载安装包,解压到合适位置:
- 二、配置相关的文件:
- 三、将Spark分发到其他节点:
- 四、启动Spark:
- 五、查看Spark是否启动成功
- VMware 12.0.1
- JDK 1.8.0
- Hadoop 2.8.5
- Python 3.6+
注意:若没有配置Hadoop环境请先配置Hadoop环境;若Python的版本不是3.6及以上的请先配置3.6以上的版本。
一、下载安装包,解压到合适位置:- 将压缩包 spark-3.0.3-bin-hadoop2.7.tgz,通过上传软件上传至/opt/softwares目录;
解压软件包并移动至/opt/modules/
- 配置spark-env.sh,该文件位于./conf目录下,需将spark-env.sh.template复制一份改名为spark-env.sh
在该文件里追加:# 配置java环境变量 export JAVA_HOME=/opt/modules/jdk1.8.0_171 # 配置master的主机名 export SPARK_MASTER_HOST=centos01 # 配置端口号 export SPARK_MASTER_PORT=7077
- 配置slaves,该文件位于./conf目录下,需将slaves.template复制一份改名为slaves
在该文件里追加:centos02 centos03
分别为两个work节点的主机名。
- 运行以下命令:
scp -r /opt/modules/spark-3.0.3 root@centos02:/opt/modules scp -r /opt/modules/spark-3.0.3 root@centos03:/opt/modules
$sbin/start-all.sh
在spark-3.0.3/sbin目录下的start-all.sh文件 。
五、查看Spark是否启动成功- 输入jps命令,在主节点上出现master,从节点上出现work即为启动成功。
- 进入spark/bin目录下,执行./pyspark若出现欢迎界面即为启动成功



