栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

spark 解析ZIP文件中的JSON数据

spark 解析ZIP文件中的JSON数据

方法一:
参考资料:https://blog.csdn.net/GCR8949/article/details/80155064

import org.apache.spark.SparkConf
import org.apache.spark.input.PortableDataStream
import org.apache.spark.sql.SparkSession
import java.io.{BufferedReader, InputStreamReader}
import java.util.zip.ZipInputStream
val spark = getLocalSparkSession()

    val binaryRDD = spark.sparkContext.binaryFiles("XXX.zip")
    val dataRDD= binaryRDD.flatMap {
      case (name: String, content: PortableDataStream) => val zis = new ZipInputStream(content.open())
        Stream.continually(zis.getNextEntry)
          .takeWhile(_ != null)
          .flatMap { _ =>
            val br = new BufferedReader(new InputStreamReader(zis))
            Stream.continually(br.readLine()).takeWhile(_ != null)
          }
    }
    dataRDD.take(10).foreach(println)

    spark.read.json(dataRDD).show(100)

方法二:
使用spark.sparkContext.newAPIHadoopRDD
参考资料:https://www.thinbug.com/q/28569788

newAPIHadoopRDD
https://blog.csdn.net/zpf_940810653842/article/details/104815533

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/630353.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号