vvp介绍:https://help.aliyun.com/document_detail/140865.html
二者区别:https://www.kchuhai.com/ask/view-1396.html
(这部分需要把离线监控平台再熟悉下)
上传代码,合入框架,然后自动化测试,然后上线
diff测试:
kafka的数据实时变化,怎么确保两次拉取数据一致?同一个key
另一个思路,从线上指定offset消费
性能测试:
延时计算rek的写入时间,本地时间减去写入时间,
4.kafka的partition和consumer数量的关系1.kafka的partition和flink的并行度一般怎么设置
2.不同数量对比情况下的情况
https://segmentfault.com/a/1190000021230209
3.分配情况
https://www.cnblogs.com/chenxiaoge/p/13335416.html#1162146607
1.Range(默认策略)
Range是对每个Topic而言的(即一个Topic一个Topic分),首先对同一个Topic里面的分区按照序号进行排序,并对消费者按照字母顺序进行排序。然后用Partitions分区的个数除以消费者线程的总数来决定每个消费者线程消费几个分区。如果除不尽,那么前面几个消费者线程将会多消费一个分区。
假设n=分区数/消费者数量,m=分区数%消费者数量,那么前m个消费者每个分配n+1个分区,后面的(消费者数量-m)个消费者每个分配n个分区。
举例:
checkpoint失败的情况
checkpoint流程
一个算子的barrier发送机制
https://zhuanlan.zhihu.com/p/279549277
8.operator 串在一起的条件设置https://mp.weixin.qq.com/s/VFEztiseulHvWfBiD0zcng
https://blog.csdn.net/qq_34635236/article/details/106477420
Barrier量级很小,知道数据每时每刻的状态,定格当时的状态
2.用什么state机制,存在哪里back 3.state规模,有多少空间 4.任务重启时,checkpoint怎么恢复到任务里面Hdfs 每一个节点如何拿到自己的数据
checkpoint数据存在哪里
https://toutiao.io/posts/sqi51w5/preview
https://blog.csdn.net/wangshuminjava/article/details/104494255
7.savepointhttp://wuchong.me/blog/2018/11/25/flink-tips-differences-between-savepoints-and-checkpoints/
savepoint 人工触发 1.9版本的flink
kafka版本介绍
https://www.jianshu.com/p/5bef1f9f74cd
Kafka 0.11 是一个里程碑式的大版本,主要有两个大的变更,一是Kafka从这个版本开始支持Exactly-once 语义即精准一次语义,主要是实现了Producer端的消息幂等性,以及事务特性,这对于Kafka流式处理具有非常大的意义。
目前用的kafka版本
kafka_2.12-2.0.1
版本特性:
Kafka 2.x 更多的也是Kafka Streams、Connect方面的性能提升与功能完善,以及安全方面的增强等。一个使用特性,Kafka 2.1.0开始支持ZStandard的压缩方式,提升了消息的压缩比,显著减少了磁盘空间与网络io消耗。
https://www.jiqizhixin.com/articles/2020-07-16-15
1.13部分解决了这个问题
1.14写了新的功能
数据难点,对key分布不均匀的情况打散
负载均衡做了什么事情
怎么发现分布不均,怎么打散key
怎么判断反压——多个任务,某一个任务有反压,先定位到任务,然后定位到key,进而定位到数据 公式计算出新的key,然后打散
Flink聚合之后,多久会进行输出
flink定时器
Flink任务的并发度 多少个task 或slot
200 qps情况下,整个系统召回时长200ms之内
10.java gc问题https://zhuanlan.zhihu.com/p/139952222
11.flink 的问题导致 火焰图https://www.infoq.cn/article/a8kmnxdhbwmzxzsytlga
指标、
底层C++,内嵌python函数
13.es落盘最后到es es底层用什么实现,
es 索引层 topic 22.20



