栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据

Flink java 自定义reduce函数,以wordcount为例

大数据 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

Flink java 自定义reduce函数,以wordcount为例

maven项目的文本文件与pom.xml配置请参考:https://blog.csdn.net/weixin_35757704/article/details/120555968
同样以wordcount为例

package transform;

import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.common.functions.ReduceFunction;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.datastream.KeyedStream;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.util.Collector;

public class WordCountKeyBy {
    public static void main(String[] args) throws Exception {
        // 1.创建流式执行环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        // 2.从文件中读取数据
        DataStream dataStream = env.readTextFile("src/main/resources/hello.txt");
        // 执行环境并行度设置3
        env.setParallelism(3);

        // 3.按照空格分词
        DataStream> sensorStream = dataStream.flatMap(new FlatMapFunction>() {
            @Override
            public void flatMap(String value, Collector> out) throws Exception {
                String[] wordString = value.split(" ");
                for (String wordLine : wordString) {
                    out.collect(new Tuple2<>(wordLine, 1));
                }
            }
        });
        // 4.分组
        KeyedStream, Object> key = sensorStream.keyBy(tuple -> tuple.f0);
        // 5.聚合
        SingleOutputStreamOperator> resultStream = key.reduce(new ReduceFunction>() {
            @Override
            public Tuple2 reduce(Tuple2 value1, Tuple2 value2) throws Exception {
                return new Tuple2(value1.f0, value1.f0.length() + value1.f1);
            }
        });
        resultStream.print();
        //执行
        env.execute();
    }
}

在上面的第5步为自定义的聚合操作,其中:reduce(Tuple2 value1, Tuple2 value2)中value1为旧有的状态,value2为新输入的状态;

上面的代码中Tuple第一个位置返回原有的单词,而Tuple第二个位置每次都加一次当前单词的长度

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/278178.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号