sparkstream 自定义map累加器支持删除kv对

大数据系统更新时间：2026-05-21 14:04:07 发布时间：1655天前 IT归档最新发布模块sitemap 名妆网法律咨询聚返吧英语巴士网伯小乐网商动力

删除kv对方法: 先用add方法设置value为-1,然后用reset清除掉value=-1的值.

import org.apache.spark.SparkContext
import org.apache.spark.streaming.Time
import org.apache.spark.util.AccumulatorV2

import scala.collection.mutable
import scala.collection.mutable.ListBuffer


object AccumulatorIfDataOut {

    // 设计单例模式用来初始化 map累加器 这里主要是针对从checkpoint恢复,累加器会丢失的现象来处理.
    @volatile private var instance: AccumulatorIfDataOut[(Time, Int)] = null

    def getInstance(sc: SparkContext) = {
        if (instance == null) {
            synchronized {
                if (instance == null) {
                    instance = new AccumulatorIfDataOut[(Time, Int)]()
                }
            }
        }
        // 累加器需要在spark上下文中注册才能使用; sc必须是rdd.sparkContext 而不是 ssc.sparkContext
        if (!instance.isRegistered) {
            sc.register(instance)
        }
        instance
    }

}



class AccumulatorIfDataOut[T] private extends AccumulatorV2[T, mutable.Map[Time, Int]]

转载请注明：文章转载自 www.mshxw.com

本文地址：https://www.mshxw.com/it/433718.html

上一篇通过光纤收发器指示灯判断网络状态

下一篇 2021.11.1 day08 关于C语言循环语句

大数据系统相关栏目本月热门文章

关于我们文章归档网站地图联系我们

sparkstream 自定义map累加器 支持删除kv对

大数据系统相关栏目本月热门文章

sparkstream 自定义map累加器支持删除kv对