栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

使用Apache Spark将键值对简化为键列表对

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

使用Apache Spark将键值对简化为键列表对

映射和ReduceByKey

输入类型和输出类型

reduce
必须相同,因此,如果要聚合列表,则必须
map
将输入输入到列表中。之后,将列表合并为一个列表。

合并清单

您需要一种将列表组合成一个列表的方法。Python提供了一些组合列表的方法。

append
修改第一个列表,并将始终返回
None

x = [1, 2, 3]x.append([4, 5])# x is [1, 2, 3, [4, 5]]

extend
做相同的事情,但是拆开列表:

x = [1, 2, 3]x.extend([4, 5])# x is [1, 2, 3, 4, 5]

这两个方法都返回

None
,但是您需要一个返回组合列表的方法,因此只需使用加号即可。

x = [1, 2, 3] + [4, 5]# x is [1, 2, 3, 4, 5]

spark

file = spark.textFile("hdfs://...")counts = file.flatMap(lambda line: line.split(" "))          .map(lambda actor: (actor.split(",")[0], actor))          # transform each value into a list         .map(lambda nameTuple: (nameTuple[0], [ nameTuple[1] ]))          # combine lists: ([1,2,3] + [4,5]) becomes [1,2,3,4,5]         .reduceByKey(lambda a, b: a + b)

组合键

也可以使用来解决此问题

combineByKey
,它在内部用于实现
reduceByKey
,但是更加复杂,并且
“在Spark中使用专用的每键组合器可以更快”
。对于上层解决方案,您的用例足够简单。

GroupByKey

也可以使用来解决此问题

groupByKey
,但是它会降低并行化,因此对于大数据集可能会慢得多。



转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/617393.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号