栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

Spark2.4.3基本原理与安装

Spark2.4.3基本原理与安装

  1. spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室 开发的通用内存并行计算框架,用来构建大型的、低延迟的数据分析应用程序。它扩展了广泛使用的MapReduce计算

模型。高效的支撑更多计算模式,包括交互式查询和流处理。spark的一个主要特点是能够在内存中进行计算,及时依赖磁盘进行复杂的运算,Spark依然比MapReduce更加高效。

  1. 中间结果输出:基于MapReduce的计算引擎通常会将中间结果输出到磁盘上,进行存储和容错。出于任务管道承接的,考虑,当一些查询翻译到MapReduce任务时,往往会产生多个Stage,而这些串联的Stage又依赖于底层文件系统(如HDFS)来存储每一个Stage的输出结果。
  2. Spark是MapReduce的替代方案,而且兼容HDFS、Hive,可融入Hadoop的生态系统,以弥补MapReduce的不
  3. 下面是spark的安装
  4. 首先找到spark的压缩包 可以上spark.apache,org 官网上下载
  5. tar -zxf spark-2.3.4-bin-hadoop2.6.tgz 6  解压文件
  6.  mv spark-2.3.4-bin-hadoop2.6 soft/spark234 移动文件
  7. 修改配置文件 cd /soft/spark234/conf/
  8.  cp slaves.template salves  
  9. cp spark-env.sh.template spark-env.sh
  10. 修改配置文件
  11. vim salves

 这里的localhost 以后需要改成映射下集群控制虚拟机的ip 比如hd01 hd02

这里是单机不需要修改

13. vim spark-env.sh 

export SPARK_MASTER_HOST=node1 #主节点IP
export SPARK_MASTER_PORT=7077 #任务提交端口
export SPARK_WORKER_CORES=2 #每个worker使用2核
export SPARK_WORKER_MEMORY=3g #每个worker使用3g内存
export SPARK_MASTER_WEBUI_PORT=8888 #修改spark监视窗口的端口默认8080

export SPARK_MASTER_HOST=192.168.80.181
export SPARK_MASTER_PORT=7077 
export SPARK_WORKER_CORES=2 
export SPARK_WORKER_MEMORY=3g 
export SPARK_MASTER_WEBUI_PORT=8888 

14.cd ../sbin/ 进入sbin目录

修改配置文件

 vim spark-config.sh

 15. 在sbin目录启动spark

因为启动命令和hadoop的启动命令相同 所以只能在sbin目录下启动文件

./start-all.sh

./stop-all.sh

16.启动成功

网址是192.168.80.181:8888

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/335427.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号