Spark开发环境的搭建与配置（基于Linux）

目录
一、部署环境安装说明

二、Spark安装

1.Spark下载

2.解压Spark安装包

3.配置环境

4.安装scala（scala要在同一目录下）

一、部署环境安装说明
部署环境VMware+Ubuntu18+jdk8+Hadoop3.3.1

关于hadoop的安装和scala的安装参考：

hadoop的安装：

(5条消息) Hadoop开发环境的搭建与配置（基于Linux）_Drajor的博客-CSDN博客

scala的安装：

(5条消息) Linux虚拟机上的Scala安装_Drajor的博客-CSDN博客_虚拟机linux安装scala

2.解压Spark安装包

将目录转换到下载Spark的目录中，查看安装情况

解压Spark

tar -zxvf spark-3.1.3-bin-hadoop3.2.tgz -C/usr/local

的压缩包到/usr/local目录下

名字过于复杂，不便于调用，切换到/usr/local目录下修改Spark文件夹的名字：

mv spark-3.1.3-bin-hadoop3.2/ spark

查看Spark的权限

将Spark的权限改为用户名权限

sudo chown -R hadoop:hadoop ./spark

3.配置环境

进入spark界面

cd spark/

将spark-env.sh.template重命名为spark-env.sh。

cp ./conf/spark-env.sh.template ./conf/spark-env.sh

编辑spark-env.sh，在末尾添加这行消息并保存

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)

验证一下是否安装成功

bin/run-example SparkPi

执行时会输出很多屏幕消息，不容易找到最终的输出结果，为了从大量的输出消息中快速找到我们想要的执行结果，可以通过grep命令来进行过滤

bin/run-example SparkPi 2>&1 | grep "Pi is roughly"

如上图，说明运行成功

启动spark

bin/spark-shell

启动成功。

继续进行配置，编辑这个文件

vim ~/.bash_profile

添加

export TERM=xterm.color

使环境变量生效

source ~/.bash_profile

启动spark

bin/spark-shell

运行成功

4.安装scala（scala要在同一目录下）

sudo apt-get install scala

安装完成后调用

scalac
scala

如下图，则安装成功