沉淀,再出发——在Hadoop集群的基础上搭建Spark - 精心出精品 - 博客园 (cnblogs.com)
博客上说明Hadoop伪分布也行
一、前提1.java环境,jdk1.8及其以上,或者open角度看8及其以上,以便scala的安装
2.安装ssh(远程登陆服务器)这里我用xshell
3.Hadoop集群(这里在伪分布下实现)
4.安装scala根据博客安装的是2.11.8
https://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.tgz
5.安装spark根据博客安装的是2.3.0
https://archive.apache.org/dist/spark/spark-2.3.0/spark-2.3.0-bin-without-hadoop.tgz
二、安装 一、安装scala通过xftp等文件传送工具将下载的scala与spark传送至虚拟机下,解压、配置环境变量
1.解压与移动(这里需要看你想装在那个路径下等下环境变量的配置要一样)1.解压 tar -zxf scala-2.11.8.tgz 2.移动 mv scala-2.11.8 ../scala2.添加环境变量(SCALA_HOME对应的是你的安装路径)
1.打开配置环境变量的文件 vim /etc/profile 2.更新使环境变量生效 source /etc/profile
这里环境变量生效后,可以测试一下scala(因为我这里是jdk1.8.0所以没有原博客中提出的细节)
二、安装spark退出scala(一定要有冒号)
:quit
下载的是最新版本对于Hadoop的任何版本都兼容。
1.解压与移动改名1.解压 tar -zxf spark-2.3.0-bin-without-hadoop.tgz 2.移动 mv spark-2.3.0-bin-without-hadoop ../spark2.添加环境变量(这里不在赘述)
3.在原博客中的吐槽感同身受啊,最重要的配置来了
在spark的安装路径下的环境变量(/usr/local/spark/conf)与Hadoop进行库文件的关联
1.重命名 mv spark-env.sh.template spark-env.sh 2.打开文件spark-env.sh(在最后添加声明,对应的路径为Hadoop安装路径bin/hadoop) export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)
真的慢
此时,我们的spark才算搭建完成,当然了我们还可以有更多的配置,比如说我们在刚刚的文件spark-env.sh中,我们还可以加入很多的描述信息和控制信息,在conf目录下还有很多的模板,我们都可以重命名之后拿来使用,这样我们的集群就更加有生命力了。在这里我们暂时不讨论spark和hadoop结合来运行程序,先让我们看一下spark在单机上的运行水平。
三、使用spark基本命令(原博主是按照spark官网的) 3.1创建数据集Datasets can be created from Hadoop InputFormats (such as HDFS files) or by transforming other Datasets. 可以从Hadoop输入格式(如HDFS文件)或通过转换其他数据集来创建数据集 Let’s make a new Dataset from the text of the README file in the Spark source directory。 让我们从Spark源目录中的自述文件文本创建一个新的数据集
这里不从hdfs上读取,而是直接从本地文件系统中读取,因此需要使用file协议
val textFile = spark.read.textFile("file:///usr/local/spark/README.md")
textFile.count()
textFile.first() // First item in this Dataset
很慢一个命令差不多半分钟左右才有反应
可以通过http://ip:4040(ip地址或主机名)
我这没反应,有兴趣的可以
就到这里了,集群搭建的可以参考原博客虽然原博客实在unbantu上的



