- 逻辑上将一个流拆分成不相交的分区。相同的key一定会进入到相同的分区中,但是同一个分区中可能会含有不同key的数据。有点类似于groupBy,重新分组的意思
- 数据类型的转化
对数据分组主要是为了进行后续的聚合操作,即对同组数据进行聚合分析。keyBy会将一个DataStream转化为一个KeyedStream(KeyedStream继承了DataStream),聚合操作会将KeyedStream转化为DataStream。如果聚合前每个元素数据类型是T,聚合后的数据类型仍为T
- 绝大多数情况,我们要根据事件的某种属性或数据的某个字段进行分组,对一个分组内的数据进行处理。如下图所示,keyBy算子根据元素的形状对数据进行分组,相同形状的元素被分到了一起,可被后续算子统一处理。比如,多支股票数据流处理时,可以根据股票代号进行分组,然后对同一股票代号的数据统计其价格变动。又如,电商用户行为日志把所有用户的行为都记录了下来,如果要分析某一个用户行为,需要先按用户ID进行分组
- 每个分区含有相同key的元素,在内部以hash & 取模的形式实现(key取hash后,取模后相同的key在同一分区,因此相同key的一定在同一分区,但是同一分区含有不同key的元素)
- 可以按照数字位置(Tuple)指定key
- 也可以按照字段名指定key
这些算子可以针对KeyedStream的每一个支流做聚合
sum()
min()
max()



