相关需求
- 安装Anaconda安装JDK然后配置相关环境
pandas: 处理小规模数据集
Spark: 3.2.0以上结合了pandasAPI 大规模的数据集处理
1-1 直接默认安装,然后配置环境变量
1-2 点击path配置添加如下
win+r->cmd->java javac java -version #jdk版本 查看jdk是否配置成功2.安装spark并配置相关环境变量
解压到指定目录即可。我的目录:D:LenovoSoftstoresoftspark-3.2.1-bin-hadoop3.2
# path添加 %SPARK_HOME %bin
点击path->编辑-.新建->%SPARK_HOME %bin
2-1 配置系统变量
#-----------------------1 PYSPARK_DEIVER_PYTHON_OPTS notebook #-----------------------2 PYSPARK_DEIVER_PYTHON ipython #-----------------------3 PYTHonPATH %SPARK_HOME%pythonlibpy4j;%SPARK_HOME%pythonlibpyspark
2-2 修改配置文件
在你的解压的文件路径目录conf下,复制文件spark-env.sh.template,修改文件名为spark-env.sh。
修改配置文件spark-env.sh,在文件末尾添加以下代码:
#D:LenovoSoftstoresoftAnaconda是你anaconda 安装的目录 export PYSPARK_PYTHON=D:LenovoSoftstoresoftAnaconda export PYSPARK_DRIVER_PYTHON=D:LenovoSoftstoresoftAnaconda export PYSPARK_SUBMIT_ARGS='--master local[*]' #local[*] 是利用所有的资源
#安装相关包,顺便把要用的一些pyhive,pymysql,jieba 都安上 pip install pyspark findspark pyhive pymysql jieba -i https://pypi.tuna.tsinghua.edu.cn/simple3.相关文件下载已打包好
点击链接
相关文件提取码-mdp4



