栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

什么是 Flink (流处理框架)

什么是 Flink (流处理框架)

Flink 入门

什么是Flink
  • Apache Flink 是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源流处理框架

  • Flink 官网

Flink 的发展历史d

    Flink 诞生于欧洲的一个大数据研究项目 StratoSphere。该项目是柏林工业大学的一个研究性项目。早期,Flink 是做 Batch 计算的,但是在 2014 年, StratoSphere 里面的核心成员孵化出 Flink,同年将 Flink 捐赠 Apache,并在后来成为 Apache 的顶级大数据项目,同时 Flink 计算的主流方向被定位为 Streaming,即用流式计算来做所有大数据的计算,这就是 Flink 技术诞生的背景。

  2014 年 Flink 作为主攻流计算的大数据引擎开始在开源大数据行业内崭露头角

Flink 与 Storm 及 Spark Streaming 等计算引擎的区别?
  • 1、Flink 是一个高吞吐、低延迟的计算引擎

  • 2、提供了有状态的计算,支持状态管理,支持强一致性的数据语义

  • 3、支持基于Event Time的WaterMark对延迟或乱序的数据进行处理等

大数据计算引擎发展

第一代: MapReducer

  • 批处理:Mapper, Reducer
  • Hadoop的MapReducer将计算分为两个阶段, 分别为Map和Reducer

第二代: DAG框架 (Tez) + MapReducer

  • 批处理 1个Tez = MR (1) + MR (2) + … + MR (n) 相比MR效率有所提升

第三代: Spark

  • 批处理, 流处理, SQL高层API支持 自带DAG ,内存迭代计算, 性能较之前大幅提升

第四代: Flink

  • 批处理, 流处理, SQL高层API支持 自带DAG ,流式计算性能更高, 可靠性更高
Flink 的特点
图解

Flink 项目的理念
  • Apache Flink 是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源流处理框架
描述
  • Apache Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。
  • Flink 被设计在所有常见的集群环境中运行,以内存执行速度和任意规模来(流,批)执行计算。
Flink流处理的特点
1、同时支持高吞吐,低延迟,高性能
  • 低延迟,状态保存在内存中,很快计算完
2、支持事件时间(Event Time) 概念
  • Process TIme,大多数框架窗口计算采用的都是系统时间(process time),也是事件传输到计算框架处理时,系统主机的当前时间。
  • Event Time,Flink支持基于事件时间(Event Time)语义进行窗口计算,也就是使用事件产生的时间,这种基于事件驱动的机制使得事件即使乱序到达,流系统也能够计算出精确的结果,保持了事件原本产生时的时序性,尽可能避免网络传输或硬件系统的影响。
3、支持有状态计算 4、支持高度灵活的窗口(Window)操作
  • Flink中除了滚动窗口,滑动窗口还有基于数量的窗口Count,基于会话的窗口Session。
5、基于轻量级的分布式快照(CheckPoint)来实现容错 6、基于JVM实现独立的内存管理 7、Save Point保存点
  • CheckPoint是自动的,做容错。
  • SavePoint是手动的,处理程序升级

到底了。。。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/676239.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号