栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

从S3并行读取多个文件(Spark,Java)

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

从S3并行读取多个文件(Spark,Java)

根本的问题是,在s3中列出对象的速度确实很慢,并且每当执行树遍历时,看起来像目录树的方式都会降低性能(就像路径的通配符模式处理一样)。

帖子中的代码正在列出所有子对象,这些方法可提供更好的性能,本质上是Hadoop 2.8和s3a
listFiles(路径,递归)附带的内容,请参见HADOOP-13208。

获得该清单后,您将获得对象路径的字符串,然后可以将其映射到s3a / s3n路径以将spark用作文本文件输入,然后将其应用于

val files = keys.map(key -> s"s3a://$bucket/$key").mkString(",")sc.textFile(files).map(...)

并按要求提供以下Java代码。

String prefix = "s3a://" + properties.get("s3.source.bucket") + "/";objectListing.getObjectSummaries().forEach(summary -> keys.add(prefix+summary.getKey())); // repeat while objectListing truncated JavaRDD<String> events = sc.textFile(String.join(",", keys))

请注意,我已将s3n切换为s3a,因为只要在CP上具有

hadoop-aws
amazon-sdk
JAR,s3a连接器就是您应该使用的连接器。更好,它是一种针对人员(我)针对火花工作负载进行维护和测试的工具。请参阅Hadoop
S3连接器的历史



转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/407357.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号