如果要单个文件,则需要
coalesce在调用write之前对单个分区执行a操作,因此:
unzipJSON.coalesce(1).write.mode("append").json("/home/eranw/Workspace/JSON/output/unCompressedJson.json")就个人而言,我觉得很烦人,输出文件的数量取决于你打电话之前有分区的数量
write-特别是如果你做
write了
partitionBy-但据我所知,目前没有其他办法。
我不知道是否有禁用.crc文件的方法-我不知道-但是您可以通过在Spark上下文的hadoop配置上设置以下内容来禁用_SUCCESS文件。
sc.hadoopConfiguration.set("mapreduce.fileoutputcommitter.marksuccessfuljobs", "false")请注意,您可能还希望通过以下方式禁用元数据文件的生成:
sc.hadoopConfiguration.set("parquet.enable.summary-metadata", "false")显然,产生元数据文件需要一定的时间(见本博客文章),但实际上并没有那么重要(根据此)。就个人而言,我总是禁用它们,并且没有任何问题。



