栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

(PySpark)reduceByKey之后的嵌套列表

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

(PySpark)reduceByKey之后的嵌套列表

这里的问题是您的reduce函数。对于每个键,

reduceByKey
请使用一对值调用reduce函数,并期望它产生相同类型的组合值。

例如,说我想执行字计数操作。首先,我可以将每个单词映射为一

(word, 1)
对,然后可以
reduceByKey(lambda x, y: x +y)
对每个单词的计数求和。最后,我剩下了
(word, count)
成对的RDD 。

这是来自PySpark
API文档
的示例:

>>> from operator import add>>> rdd = sc.parallelize([("a", 1), ("b", 1), ("a", 1)])>>> sorted(rdd.reduceByKey(add).collect())[('a', 2), ('b', 1)]

要了解为什么您的示例不起作用,您可以想象应用了reduce函数,如下所示:

reduce(reduce(reduce(firstValue, secondValue), thirdValue), fourthValue) ...

根据您的reduce函数,听起来您可能正在尝试实现内置

groupByKey
操作,该操作将每个键与其值列表进行分组。

此外,看一看

combineByKey
,的推广
reduceByKey()
,使精简函数的输入和输出类型不同(
reduceByKey
是实现在以下方面
combineByKey



转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/669555.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号