栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

Flink WaterMark

Flink WaterMark

 

 

 

判定迟到时间:

 watermark在算子之间的传播:

 每个Operator上有对应的Event-time,这个其实是一个TimeService,这个TimeService标记出来当前算子的一个时钟。

watermark最好在Source Operator就进行设置,且最好Source Operator的并行度为1.

watermark的生成依赖于事件时间的更新(出现更大的事件时间)

watermark生成之后会随着数据(streamElement)一起通过上游的算子会发送给下游的算子,watermark会被当成一种特殊的事件,这个特殊事件是会伴随着整个数据处理流程,一直发送到下游的算子中,一直到更新最终的算子中

当source operator产生了watermark之后,发送给下游的算子之后,会更新算子的时钟。

对于kafka消息中间件等可以直接在source function里面抽取Timestamp和生成watermark

 

forBoundedOutOfOrderness(Duration.ofSeconds(5))静态方法创建了一个BoundedOutOfOrdernessWatermarks的一个实例,而BoundedOutOfOrdernessWatermarks则实现了 WatermarkGenerator接口

BoudedOutOfOrdernessWatermarks是周期性的生成watermark

WatermarkGenerator提供了两种生成watermark策略的方法,包括PunctuatedWatermark(based on something in the event  stream)和PeriodicWatermark(based on Event Time),也就是说在watermarkGenerator里统一了watermark的生成方式。

 

 

 实现WatermarkGenerator接口

 

 

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/584633.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号