栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Java

spark实现wordcount,python书写

Java 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

spark实现wordcount,python书写

#  coding=utf-8
# !/usr/bin/python3
# @Time   : 2021.9.11
# @Author : Coly
# @version: V1.0
# @Des    : learning

import findspark
findspark.init()
import pyspark
import os

os.environ['JAVA_HOME'] = '/usr/lib/jdk8/jdk1.8.0_301'


conf = pyspark.SparkConf().setAppName("wordcount").setMaster("local[*]")
sc = pyspark.SparkContext(conf=conf)

# inputdata = sc.textFile("hdfs://linux1:9000/home/linux1/Desktop/spark/words.txt") # hdfs read file
inputdata = sc.textFile("file:///home/linux1/Desktop/spark/data")          #local reading file
output = inputdata.flatMap(lambda x: x.split(",")).map(lambda x: (x, 1))
outputarray = output.reduceByKey(lambda a, b: a + b)
result = outputarray.collect()
for i in result:
    print(i)

sc.stop()
print(output.getNumPartitions())




转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/272140.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号