1.spark下载地址
spark.apache.org
版本选择2.3.1,个人建议不选择.0结尾的,测试版容易有bug
2.解压并配置worker节点
我们需要一台虚拟机作为master节点,两台作为worker节点
将下载好的spark安装包上传到master节点,并解压
[root@hadoop102 module]# tar -zvxf spark-3.0.0-bin-hadoop3.2.tgz
解压后我们进入conf文件夹下的slaves.template文件,个人不建议直接vim,先将该文件复制一份,并改名为slave
[root@hadoop102 conf]# cp slaves.template slaves
然后修改slave文件,并配置worker节点(将worker节点虚拟机名称加入进来)
3.进行各种配置
修改spark-env.sh.template,修改方式和第二步相同
export SPARK_MASTER_HOST=hadoop102 export SPARK_MASTER_PORT=7077 //提交任务的端口,默认是7077 export SPARK_WORKER_CORES=2 //每个worker从节点能够支配的core的个数 export SPARK_WORKER_MEMORY=2g //每个worker从节点能够支配的内存数 export JAVA_HOME= /opt/module/jdk1.8.0_131 //java的home,这里需要jdk8
4.同步到其他worker节点
scp -r [文件路径] root@端口号:[待插入的绝对路径]
5.启动集群
进入到sbin目录下,执行start-all.sh
6.spark on YARN
只需要在spark-env,sh中加上一句配置
export HADOOP_CONF_DIR=$HADOOP_HOME /etc/hadoop
同时在每台虚拟机的yarn-site.xml中加入配置
yarn.nodemanager.vmem-check-enabled false



