栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

Spark读取python3泡菜作为输入

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

Spark读取python3泡菜作为输入

很大程度上取决于数据本身。一般来说,当必须读取较大的,不可拆分的文件时,Spark的性能不是特别好。不过,您可以尝试使用

binaryFiles
method并将其与标准Python工具结合使用。让我们从虚拟数据开始:

import tempfileimport pandas as pdimport numpy as npoutdir = tempfile.mkdtemp()for i in range(5):    pd.Dataframe(        np.random.randn(10, 2), columns=['foo', 'bar']    ).to_pickle(tempfile.mkstemp(dir=outdir)[1])

接下来,我们可以使用

bianryFiles
方法读取它:

rdd = sc.binaryFiles(outdir)

并反序列化单个对象:

import picklefrom io import BytesIOdfs = rdd.values().map(lambda p: pickle.load(BytesIO(p)))dfs.first()[:3]##         foo       bar## 0 -0.162584 -2.179106## 1  0.269399 -0.433037## 2 -0.295244  0.119195

一个重要的注意事项是,与诸如之类的简单方法相比,它通常需要更多的内存

textFile

另一种方法是仅并行化路径,并使用可以直接从诸如hdfs3之类的分布式文件系统读取的库。这通常意味着较低的内存需求,但代价是数据局部性会大大降低。

考虑到这两个事实,通常最好以可以加载更高粒度的格式序列化数据。

注意事项

SparkContext
提供
pickleFile
方法,但名称可能会误导。它可以用来读取
SequenceFiles
包含腌制对象而不是普通的Python腌制。



转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/625743.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号