配置Spark以与Jupyter Notebook和Anaconda一起使用

面试问答更新时间：2026-04-03 20:05:53 发布时间：1585天前 IT归档最新发布模块sitemap 名妆网法律咨询聚返吧英语巴士网伯小乐网商动力

Conda可以帮助正确管理很多依赖项…

安装火花。假设spark安装在/ opt / spark中，请将其包含在〜/ .bashrc中：

export SPARK_HOME=/opt/sparkexport PATH=$SPARK_HOME/bin:$PATH

创建一个conda环境，其中包含除spark之外的所有必需依赖项：

conda create -n findspark-jupyter-openjdk8-py3 -c conda-forge python=3.5 jupyter=1.0 notebook=5.0 openjdk=8.0.144 findspark=1.1.0

激活环境

$ source activate findspark-jupyter-openjdk8-py3

启动Jupyter Notebook服务器：

$ jupyter notebook

在浏览器中，创建一个新的Python3笔记本

试着用下面的脚本（从借来的计算PI这个）

import findsparkfindspark.init()import pysparkimport randomsc = pyspark.SparkContext(appName="Pi")num_samples = 100000000def inside(p):       x, y = random.random(), random.random()  return x*x + y*y < 1count = sc.parallelize(range(0, num_samples)).filter(inside).count()pi = 4 * count / num_samplesprint(pi)sc.stop()

转载请注明：文章转载自 www.mshxw.com

本文地址：https://www.mshxw.com/it/611808.html

上一篇 Python ValueError：无法解码JSON对象

下一篇如何在python3中解码base64

面试问答相关栏目本月热门文章

关于我们文章归档网站地图联系我们