栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

本机安装PySpark3.2.0

本机安装PySpark3.2.0

本机安装PySpark3.2.0__python3.8

相关需求

    安装Anaconda安装JDK然后配置相关环境

pandas: 处理小规模数据集
Spark: 3.2.0以上结合了pandasAPI 大规模的数据集处理

1.JDK安装


1-1 直接默认安装,然后配置环境变量


1-2 点击path配置添加如下

win+r->cmd->java
javac
java -version #jdk版本
查看jdk是否配置成功

2.安装spark并配置相关环境变量


解压到指定目录即可。我的目录:D:LenovoSoftstoresoftspark-3.2.1-bin-hadoop3.2

# path添加
%SPARK_HOME %bin

点击path->编辑-.新建->%SPARK_HOME %bin

2-1 配置系统变量

#-----------------------1
PYSPARK_DEIVER_PYTHON_OPTS  notebook
#-----------------------2
PYSPARK_DEIVER_PYTHON       ipython
#-----------------------3
PYTHonPATH
%SPARK_HOME%pythonlibpy4j;%SPARK_HOME%pythonlibpyspark

2-2 修改配置文件
在你的解压的文件路径目录conf下,复制文件spark-env.sh.template,修改文件名为spark-env.sh。

修改配置文件spark-env.sh,在文件末尾添加以下代码:

#D:LenovoSoftstoresoftAnaconda是你anaconda 安装的目录
export PYSPARK_PYTHON=D:LenovoSoftstoresoftAnaconda
export PYSPARK_DRIVER_PYTHON=D:LenovoSoftstoresoftAnaconda
export PYSPARK_SUBMIT_ARGS='--master local[*]'
#local[*]  是利用所有的资源
#安装相关包,顺便把要用的一些pyhive,pymysql,jieba 都安上
pip install pyspark findspark pyhive  pymysql  jieba -i https://pypi.tuna.tsinghua.edu.cn/simple
3.相关文件下载已打包好

点击链接
相关文件提取码-mdp4

4.测试案例

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/758356.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号