spark写入使用pipeline批量写redis

大数据系统更新时间：2026-05-21 11:35:07 发布时间：1693天前 IT归档最新发布模块sitemap 名妆网法律咨询聚返吧英语巴士网伯小乐网商动力

  override protected def process(df: Dataframe, param: Map[String, Any]): Dataframe = {
    val (redisConfig, keyNameInDF, valueNameInDF, keyPrefix, expiredTime,productName,batchSize) = parseParam(param)
    df.mapPartitions ( partition => {
      val wrapper = JedisClient.getInstance(redisConfig).asInstanceOf[JedisExpandWrapper]

      def forPartition(pipeline:Pipeline,jedis: Jedis): Iterator[Row]  ={
        val rows: Iterator[Row] = partition.map(row => {

          val key = row.getAs[String](keyNameInDF)
          val value = row.getAs[String](valueNameInDF) match {
            case x: String => x
            case null => ""
          }
          pipeline.set(s"${productName}:${keyPrefix}:${key}", value, SetParams.setParams().ex(expiredTime).nx())
          row
        })
        rows
      }

      wrapper.operate({ jedis: Jedis => {
        val pipeline: Pipeline = jedis.pipelined()
        val resultRows = forPartition(pipeline,jedis)

        pipeline.sync()

        resultRows
      }}, "")
    })(RowEncoder(df.schema))
  }

读取文件数据（3.5亿），写入redis，redis写入数据量与文件的记录数差好多，是什么问题导致的？

转载请注明：文章转载自 www.mshxw.com

本文地址：https://www.mshxw.com/it/278451.html

上一篇 Hadoop文件基础操作命令

下一篇软件常用端口汇总

大数据系统相关栏目本月热门文章

关于我们文章归档网站地图联系我们