spark安装_大数据系统

spark安装

前言

资料链接

安装scala

创建scala工作目录

配置环境变量（三台机器）

查看是否安装成功

分发到节点

验证

安装spark

创建spark工作目录

编辑spark-env.sh

配置spark从节点

配置环境变量（三台机器）

分发到节点

测试运行环境（只在master节点执行）

访问spark web界面

开启spark-shell

输入pyspark测试python环境spark交互模式

spark安装

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

前言
在部署完hadoop集群后，再安装scala与spark

Spark 是在 Scala 语言中实现的，它将 Scala 用作其应用程序框架。与 Hadoop 不同，Spark 和 Scala 能够紧密集成，其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

资料链接
链接：https://pan.baidu.com/s/1ytGL3cLGQxGltl5bHrSBQQ
提取码：yikm

安装scala

创建scala工作目录

mkdir -p /usr/scala/
tar -xvf /usr/package/scala-2.11.12.tgz -C /usr/scala/

配置环境变量（三台机器）

vim /etc/profile

添加以下内容：

#scala
export SCALA_HOME=/usr/scala/scala-2.11.12
export PATH=$SCALA_HOME/bin:$PATH

生效环境变量

 source /etc/profile

查看是否安装成功

scala -version

分发到节点

 scp -r /usr/scala/ root@slave1:/usr/
 scp -r /usr/scala/ root@slave2:/usr/

验证

scala -version

安装spark

创建spark工作目录

mkdir -p /usr/spark
tar -zxvf /usr/package/spark-2.4.0-bin-hadoop2.7.tgz -C /usr/spark/

编辑spark-env.sh

cd /usr/spark/spark-2.4.0-bin-hadoop2.7/conf
mv spark-env.sh.template spark-env.sh
vim spark-env.sh

添加以下内容：

export SPARK_MASTER_IP=master
export SCALA_HOME=/usr/scala/scala-2.11.12
export SPARK_WORKER_MEMORY=8g
export JAVA_HOME=/usr/java/jdk1.8.0_171
export HADOOP_HOME=/usr/hadoop/hadoop-2.7.3
export HADOOP_CONF_DIR=/usr/hadoop/hadoop-2.7.3/etc/hadoop

配置spark从节点

mv slaves.template slaves
vim slaves

修改localhost：

slave1
slave2

配置环境变量（三台机器）

vim /etc/profile

添加以下内容：

#spark
export SPARK_HOME=/usr/spark/spark-2.4.0-bin-hadoop2.7
export PATH=$SPARK_HOME/bin:$PATH

生效环境变量

source /etc/profile

分发到节点

scp -r /usr/spark/ root@slave1:/usr/
scp -r /usr/spark/ root@slave2:/usr/

测试运行环境（只在master节点执行）

启动hadoop

/usr/hadoop/hadoop-2.7.3/sbin/start-all.sh

启动spark集群

/usr/spark/spark-2.4.0-bin-hadoop2.7/sbin/start-all.sh

jps查看进程

访问spark web界面

192.168.111.3:8080

开启spark-shell

spark-shell

输入以下命令测试：

println("Hello world")

输入pyspark测试python环境spark交互模式

pyspark

输入命令测试：

 print("Hello world")

输入quit()可退出

spark安装

前言
在部署完hadoop集群后，再安装scala与spark

Spark 是在 Scala 语言中实现的，它将 Scala 用作其应用程序框架。与 Hadoop 不同，Spark 和 Scala 能够紧密集成，其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

资料链接
链接：https://pan.baidu.com/s/1ytGL3cLGQxGltl5bHrSBQQ
提取码：yikm

安装scala

创建scala工作目录
mkdir -p /usr/scala/ tar -xvf /usr/package/scala-2.11.12.tgz -C /usr/scala/

配置环境变量（三台机器）
vim /etc/profile

添加以下内容：

#scala export SCALA_HOME=/usr/scala/scala-2.11.12 export PATH=$SCALA_HOME/bin:$PATH

生效环境变量

source /etc/profile

查看是否安装成功
scala -version

分发到节点
scp -r /usr/scala/ root@slave1:/usr/ scp -r /usr/scala/ root@slave2:/usr/

验证
scala -version

安装spark

创建spark工作目录
mkdir -p /usr/spark tar -zxvf /usr/package/spark-2.4.0-bin-hadoop2.7.tgz -C /usr/spark/

测试运行环境（只在master节点执行）
启动hadoop

/usr/hadoop/hadoop-2.7.3/sbin/start-all.sh

启动spark集群

/usr/spark/spark-2.4.0-bin-hadoop2.7/sbin/start-all.sh

jps查看进程

访问spark web界面
192.168.111.3:8080

开启spark-shell
spark-shell

输入以下命令测试：

println("Hello world")

输入pyspark测试python环境spark交互模式
pyspark

输入命令测试：

print("Hello world")

输入quit()可退出

大数据系统相关栏目本月热门文章

spark安装

前言 在部署完hadoop集群后，再安装scala与spark Spark 是在 Scala 语言中实现的，它将 Scala 用作其应用程序框架。与 Hadoop 不同，Spark 和 Scala 能够紧密集成，其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

资料链接 链接：https://pan.baidu.com/s/1ytGL3cLGQxGltl5bHrSBQQ 提取码：yikm

安装scala

创建scala工作目录 mkdir -p /usr/scala/ tar -xvf /usr/package/scala-2.11.12.tgz -C /usr/scala/

配置环境变量（三台机器） vim /etc/profile 添加以下内容： #scala export SCALA_HOME=/usr/scala/scala-2.11.12 export PATH=$SCALA_HOME/bin:$PATH 生效环境变量 source /etc/profile

查看是否安装成功 scala -version

分发到节点 scp -r /usr/scala/ root@slave1:/usr/ scp -r /usr/scala/ root@slave2:/usr/

验证 scala -version

安装spark

创建spark工作目录 mkdir -p /usr/spark tar -zxvf /usr/package/spark-2.4.0-bin-hadoop2.7.tgz -C /usr/spark/

测试运行环境（只在master节点执行） 启动hadoop /usr/hadoop/hadoop-2.7.3/sbin/start-all.sh 启动spark集群 /usr/spark/spark-2.4.0-bin-hadoop2.7/sbin/start-all.sh jps查看进程

访问spark web界面 192.168.111.3:8080

开启spark-shell spark-shell 输入以下命令测试： println("Hello world")

输入pyspark测试python环境spark交互模式 pyspark 输入命令测试： print("Hello world") 输入quit()可退出

大数据系统相关栏目本月热门文章

前言
在部署完hadoop集群后，再安装scala与spark

Spark 是在 Scala 语言中实现的，它将 Scala 用作其应用程序框架。与 Hadoop 不同，Spark 和 Scala 能够紧密集成，其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

资料链接
链接：https://pan.baidu.com/s/1ytGL3cLGQxGltl5bHrSBQQ
提取码：yikm

创建scala工作目录
mkdir -p /usr/scala/ tar -xvf /usr/package/scala-2.11.12.tgz -C /usr/scala/

配置环境变量（三台机器）
vim /etc/profile

添加以下内容：

#scala export SCALA_HOME=/usr/scala/scala-2.11.12 export PATH=$SCALA_HOME/bin:$PATH

生效环境变量

source /etc/profile

查看是否安装成功
scala -version

分发到节点
scp -r /usr/scala/ root@slave1:/usr/ scp -r /usr/scala/ root@slave2:/usr/

验证
scala -version

创建spark工作目录
mkdir -p /usr/spark tar -zxvf /usr/package/spark-2.4.0-bin-hadoop2.7.tgz -C /usr/spark/

测试运行环境（只在master节点执行）
启动hadoop

/usr/hadoop/hadoop-2.7.3/sbin/start-all.sh

启动spark集群

/usr/spark/spark-2.4.0-bin-hadoop2.7/sbin/start-all.sh

jps查看进程

访问spark web界面
192.168.111.3:8080

开启spark-shell
spark-shell

输入以下命令测试：

println("Hello world")

输入pyspark测试python环境spark交互模式
pyspark

输入命令测试：

print("Hello world")

输入quit()可退出