Apache Flink 分布式流式计算框架简介（一）

简介

Apache Flink 是一个分布式流式计算框架，用于处理有边界和无边界数据流上进行有状态的计算，Flink生产环境中以集群的方式部署运行，并能以内存速度和任意规模进行计算。

应用场景

无界和有界数据
任何类型的数据都可以形成一种事件流。数据就是流的体现，比如：淘宝的交易数据，用户登录数据，nginx的日志，网站/APP/小程序与用户产生交互记录等。

数据以是否有边界，被分为：有界流和无界流；

/ 有界流无界流
起始值
有开始，有结束，范围值
有开始，无结束，无休止地产生数据
计算方式摄取所有数据后再进行计算无界流的数据必须持续处理
优势所有数据可以被排序，不需要有序摄取处理无界数据通常要求以特定顺序摄取事件，以便能够推断结果的完整性；处理过程无需等待所有数据到达再处理
其他有界流处理通常被称为批处理日常使用较多

支持的部署方式
独立集群运行
Hadoop YARN
Apache Mesos
Kubernetes
与第三方框架结合使用
一些比较基本的 Source 和 Sink 已经内置在 Flink 里。预定义 data sources 支持从文件、目录、socket，以及 collections 和 iterators 中读取数据。预定义 data sinks 支持把数据写入文件、标准输出（stdout）、标准错误输出（stderr）和 socket。

Kafka
Elasticsearch
RabbitMQ
JDBC
Redis
其他

Flink中文介绍

/	有界流	无界流
起始值	有开始，有结束，范围值	有开始，无结束，无休止地产生数据
计算方式	摄取所有数据后再进行计算	无界流的数据必须持续处理
优势	所有数据可以被排序，不需要有序摄取	处理无界数据通常要求以特定顺序摄取事件，以便能够推断结果的完整性；处理过程无需等待所有数据到达再处理
其他	有界流处理通常被称为批处理	日常使用较多