栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

更改DataFrame.write()的输出文件名前缀

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

更改DataFrame.write()的输出文件名前缀

使用任何标准输出格式(例如Parquet)时,都不能更改“ part”前缀。请参阅ParquetRelation
源代码中的以下片段:

private val recordWriter: RecordWriter[Void, InternalRow] = {  val outputFormat = {    new ParquetOutputFormat[InternalRow]() {      // ...      override def getDefaultWorkFile(context: TaskAttemptContext, extension: String): Path = {        // ..        //  prefix is hard-pred here:        new Path(path, f"part-r-$split%05d-$uniqueWriteJobId$bucketString$extension")    }  }}

如果确实必须控制零件文件名,则可能必须实现自定义FileOutputFormat并使用Spark的其中一个接受FileOutputFormat类的保存方法(例如saveAsHadoopFile)。



转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/495704.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号