栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

大数据基础:实验一sparkWordCount

大数据基础:实验一sparkWordCount

大数据基础:sparkWordCount实现
本次实验基于pyspark
新建一个data.txt文件用于本次实验
hello this is a spark demo!
welecome to here
a hot day
hot
本地读取文件

#读取本地文本文件
lines = sc.textFile("data.txt")
#通过flatMap操作把所有数据转行成rdd,把数据压成一列
result = lines.flatMap(lambda line : line.split(' ')
result.collect()

输出结果如下:

#把每一个元素转化成元组
result1 = result.map(lambda word : (word,1))

输出结果如下:

#按key聚合累加
result2 = result1.reduceByKey(lambda a,b:a+b)
result2.collect()

输出结果如下:

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/751055.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号