栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

将RDD划分为长度为n的元组

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

将RDD划分为长度为n的元组

Olologin的答案几乎是正确的,但我相信您想要做的是将RDD分为3个元组,而不是将RDD分为3个元组。为此,请尝试以下操作:

rdd = sc.parallelize(["e1", "e2", "e3", "e4", "e5", "e6", "e7", "e8", "e9", "e10"])transformed = rdd.zipWithIndex().groupBy(lambda (_, i): i / 3)      .map(lambda (_, list): tuple([elem[0] for elem in list]))

在pyspark中运行时,我得到以下信息:

>>> from __future__ import print_function    >>> rdd = sc.parallelize(["e1", "e2", "e3", "e4", "e5", "e6", "e7", "e8", "e9", "e10"])>>> transformed = rdd.zipWithIndex().groupBy(lambda (_, i): i / 3).map(lambda (_, list): tuple([elem[0] for elem in list]))>>> transformed.foreach(print)...('e4', 'e5', 'e6')('e10',)('e7', 'e8', 'e9')('e1', 'e2', 'e3')


转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/610809.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号