步骤1:安装python3.7
步骤2:安装PyCharm,并配置python3.7路径
步骤3:pip安装Django模块
步骤4:新建Django项目
步骤5:按照博客地址建好Django
python django pycharm mysql_malingyu的专栏-CSDN博客
步骤6:安装pyspark模块、百度网盘地址链接:https://pan.baidu.com/s/1E_mi2FzoLiEMHvqUbDc50A
提取码:goui
matplotlib、numpy模块,下载地址:http://www.lfd.uci.edu/~gohlke/pythonlibs/
安装pyspark模块,下载pyspark解压到本地
pip install D:SoftwareWorkP_Worktopicfourvenvscriptspyspark
安装matplotlib
pip install numpy-1.21.5+mkl-cp37-cp37m-win_amd64.whl
安装numpy
pip instll matplotlib-2.2.5-cp37-cp37m-win_amd64.whl
引用的时候,不会报错。
步骤7:修改settings.py文件,添加spark目录
import sys
if 'SPARK_HOME' not in os.environ:
os.environ['SPARK_HOME'] = 'D:Softwaresparkfornet/spark-3.0.1-bin-hadoop2.7'
SPARK_HOME = os.environ['SPARK_HOME']
PY4J_DIR=os.path.normpath(SPARK_HOME+'pythonlib')
PYSPARK_DIR=os.path.normpath(SPARK_HOME+'python')
sys.path.insert(0,PY4J_DIR)
sys.path.insert(0,PYSPARK_DIR)
说明:其中D:Softwaresparkfornet/spark-3.0.1-bin-hadoop2.7为spark的目录
pythonlib为PY4J的目录
步骤8:修改项目中的view.s文件
import numpy import matplotlib.pyplot as plt from pyspark import SparkContext, SparkConf, SQLContext
def index(request):
conf = SparkConf().setMaster("local").setAppName("apitest")
sc = SparkContext(conf=conf)
spark = SQLContext(sc)
user = sc.textFile("user.txt")
a = user.first()
user_fields = user.map(lambda line: line.split("|"))
# 统计总的用户数
num_users = user_fields.map(lambda fields: fields[0]).count()
print(user.first())
data = user_fields.map(lambda x: int(x[0])).collect()
x = numpy.arange(1, 100, 1)
# 通过python中的matplotlib生成图表提供给分析师分析
plt.plot(x, data)
plt.xlabel(u"time/s") # X轴标签
plt.ylabel("data") # Y轴标签
plt.title("simple plot") # 标题
plt.show()
for i in range(len(data)):
if (data[i] > 10):
data[i] = (data[i - 1] + data[i + 1]) / 2
plt.plot(x, data)
plt.xlabel(u"time/s") # X轴标签
plt.ylabel("data") # Y轴标签
plt.title("simple plot") # 标题
plt.show()
return HttpResponse(u"你好")
步骤9:运行程序后,postman进行测试
说明:其中apitest为app应用的名称,应根据自己实际的app名称进行修改。
至此实现了在django里面使用spark模块进行数据分析。



