文章目录
python编程快速上手(持续更新中…)
推荐系统基础一、目标二、spark 安装部署
1.下载2.安装3.启动和使用 三、spark 集群相关概念
1.spark集群架构(Standalone模式)2.Spark作业相关概念3.Spark作业图
一、目标知道Spark的安装过程,知道standalone启动模式知道spark作业提交集群的过程 二、spark 安装部署 1.下载
spark: 版本spark2.2.0, 下载地址:http://archive.apache.org/dist/spark/spark-2.2.0/
,下载spark-2.2.0-bin-hadoop2.6.tgz
a.spark解压到/opt下,并分别重名为scala2118,spark22,然后配置环境变量,具体如下:
tar -zxvf spark-2.2.0-bin-hadoop2.6.tgz -C /opt/
cd /opt
mv spark-2.2.0-bin-hadoop2.6/ spark
b.配置spark环境变量spark-env.sh(需要将spark-env.sh.template重命名)
cd spark/conf
mv spark-env.sh.template spark-env.sh
vi spark-env.sh
export SPARK_HOME=/opt/spark export JAVA_HOME=/opt/jdk8 export HADOOP_HOME=/opt/hadoop export YARN_HOME=/opt/hadoop export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop export HADOOP_CONF_DIR=$YARN_HOME/etc/hadoop export SPARK_MASTER_IP=172.18.2.2 export SPARK_LIBRARY_PATH=$HADOOP_HOME/lib/native export SPARK_LOCAL_DIRS=/opt/spark/tmp
c.修改slaves配置文件
# 步骤一:将slaves.template这个文件重新命名为slaves: mv slaves.template slaves # 步骤二:修改slaves配置文件中的内容,在里面添加worker节点的地址 # 配置从节点的地址(默认) localhost
d.配置Spark环境变量
打开/etc/profile,在该文件中添加如下内容:
#配置Spark环境变量 export SPARK_HOME=/opt/modules/spark-2.2.0 export PATH=$SPARK_HOME/bin:$PATH
让配置生效:
3.启动和使用source /etc/profile
a.进入到$SPARK_HOME/sbin目录
启动
./start-all.sh
jps查看进程
60056 Master
60137 Worker
通过SPARK WEB UI查看Spark集群及Spark
http://172.18.2.2:8080/ 监控Spark集群
http://172.18.2.2:4040/ 监控Spark Job
关闭
./stop-all.sh
b.进入到$SPARK_HOME/bin目录
三、spark 集群相关概念 1.spark集群架构(Standalone模式) 2.Spark作业相关概念spark-shell
Master
主节点负责Worker状态管理响应client提交来的Application Worker
管理自身资源运行Applicatoib对应的task启动图driver执行application Excutor
task最终执行的容器 Application
spark作业 Diver
作业提交给spark的时候先由一个Worker启动一个Driver来分析ApplicationDAGScheduler
tash划分交给TaskScheduler作用可以划分多个stage每一个stage根据partion的 数量觉得由多个task TaskScheduler
将task调度到对应的Excutors上执行 Clent 3.Spark作业图



