根本的问题是,在s3中列出对象的速度确实很慢,并且每当执行树遍历时,看起来像目录树的方式都会降低性能(就像路径的通配符模式处理一样)。
帖子中的代码正在列出所有子对象,这些方法可提供更好的性能,本质上是Hadoop 2.8和s3a
listFiles(路径,递归)附带的内容,请参见HADOOP-13208。
获得该清单后,您将获得对象路径的字符串,然后可以将其映射到s3a / s3n路径以将spark用作文本文件输入,然后将其应用于
val files = keys.map(key -> s"s3a://$bucket/$key").mkString(",")sc.textFile(files).map(...)并按要求提供以下Java代码。
String prefix = "s3a://" + properties.get("s3.source.bucket") + "/";objectListing.getObjectSummaries().forEach(summary -> keys.add(prefix+summary.getKey())); // repeat while objectListing truncated JavaRDD<String> events = sc.textFile(String.join(",", keys))请注意,我已将s3n切换为s3a,因为只要在CP上具有
hadoop-aws和
amazon-sdkJAR,s3a连接器就是您应该使用的连接器。更好,它是一种针对人员(我)针对火花工作负载进行维护和测试的工具。请参阅Hadoop
S3连接器的历史。



