- 一、简介
- 二、框架对比
- 三、编程实现
- 1.流处理
- 2.批处理
- 四、结语
Apache Flink 是一个框架和分布式处理引擎,支持实时流数据处理与离线数据批处理计算。用户案例有阿里、腾讯、华为、小米、滴滴、ebay、亚马逊等,比较知名的阿里双十一交易大屏实时展示技术就是建立在该框架之上。
二、框架对比
Spark Streaming是把流转化成一个个小的批来处理,Flink是把批当作一种有界的流。
1、Storm是第一代流处理框架,数据吞吐量和延迟上表现不尽人意,而且在数据准确性方面也存在不足。
2、Spark Streaming是第二代流处理框架,每次只能处理一小批数据,以接近实时处理的效果。
3、Flink是第三代流引擎框架,基于数据有界和无界的思想,可支持流式和批量处理,吞吐量更高,延迟更低。
三、编程实现 1.流处理摘自知乎
所谓流处理,就是说有条消息通道,不断地有数据过来,然后进行处理。
我们用nc监听9999端口(TCP服务器),客户端编程连接此服务器,接收消息进行wordcount统计。
创建TCP端口监听,若要创建udp端口加参数-u即可:
nc -lk 9999
连接:
nc 127.0.0.1 9999
客户端连接后键盘发送消息即可:
客户端代码:
pom.xml
4.0.0 com.example test01 1.0-SNAPSHOT 8 8 org.apache.flink flink-streaming-scala_2.11 1.14.0 org.apache.flink flink-clients_2.11 1.14.0 net.alchim31.maven scala-maven-plugin 3.4.6 testCompile org.apache.maven.plugins maven-assembly-plugin 3.0.0 jar-with-dependencies make-assembly package single
FlinkStreamWordCount.scala
package com.llqqww
import org.apache.flink.streaming.api.scala._
object FlinkStreamWordCount {
def main(args: Array[String]): Unit = {
println("开始")
//初始化流计算环境
val env = StreamExecutionEnvironment.getExecutionEnvironment
//读取数据
val stream = env.socketTextStream("vm.test.com",9999)
//转换计算
val result = stream.flatMap(_.split(" "))
.map((_, 1))
.keyBy(0)
.sum(1)
//打印结果到控制台
result.print()
//启动流式处理,如果没有该行代码上面的程序不会运行
env.execute("WordCount")
}
}
执行结果:
2.批处理批处理,即处理离线数据,该数据不会再变化的。我们直接读取resources目录下的文件进行单词统计。
FlinkBatchWordCount.scala
package com.llqqww
import org.apache.flink.api.scala._
object FlinkBatchWordCount {
def main(args: Array[String]): Unit = {
//初始化流计算环境
val env = ExecutionEnvironment.getExecutionEnvironment
//读取数据
val file= getClass.getResource("/wc.txt");
val data = env.readTextFile(file.getPath)
//转换计算
val result = data.flatMap(_.split(" "))
.map((_, 1))
.groupBy(0)
.sum(1).print()
}
}
执行结果:
本文只是在本地进行模拟运行,还没有提交到Flink引擎上运行。
学习资料:尚学堂Flink教程(Apache Flink 从入门到精通)
【转载请注明出处:https://leytton.blog.csdn.net/article/details/121066066】



