栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

关于spark structed stream 流中的触发trigger间隔的理解

关于spark structed stream 流中的触发trigger间隔的理解

这里的讨论先把continue stream这种场景排除掉,只讨论常规的spark的微批量场景,

    如果不执行trigger触发器的时候,spark是尽可能快的分批处理数据,但是多快说不好,
    一般是100ms以上,所以这里几乎可以理解成差不多100ms一个微批显式的指定触发间隔,Trigger.ProcessingTime(“2 seconds”),这里每个批次就是2s一批数据

关于kafka或者file作为输入源时的maxOffsetPerTrigger和maxFilePerTrigger参数的理解:
相当于每次触发一个微批的数据里面最多包含maxOffset或者N个文件里面的数据量,这个是trigger的触发间隔
任何关系

关于output model输出模式的理解:输出模式会反过来影响数据输出的方式(拿带窗口时间的聚合作为例子),比如:如果是Append输出模式的话,
数据会一直等到wartermark时间时候才输出数据,这样数据就固定了,超过wartermark的时间来的数据就直接丢弃了。
但是如果是update输出模式的话,每次滑动窗口内(注意不是每次触发时间)同一个key会变,不会一直等到wartermark之后
才输出一次结果,而是从出现到wartermark期间,每次滑动窗口内都更新对应key的value并输出

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/751468.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号