栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

FLINK 学习随笔一

FLINK 学习随笔一

什么是数据管道?

Extract-transform-load (ETL) 是一种在存储系统之间转换和移动数据的常用方法。通常会定期触发 ETL 作业,以将数据从事务数据库系统复制到分析数据库或数据仓库。

数据管道的用途与 ETL 作业类似。他们转换和丰富数据,并可以将其从一个存储系统移动到另一个存储系统。但是,它们以连续流模式运行,而不是定期触发。因此,他们能够从持续生成数据的源中读取记录,并以低延迟将其移动到目的地。例如,数据管道可能会监视文件系统目录中的新文件并将其数据写入事件日志。另一个应用程序可能将事件流具体化到数据库或增量构建和细化搜索索引。

下图描述了周期性 ETL 作业和连续数据管道之间的区别。

DataStream API 的深度批处理/流式统一

DataStream API是 Flink 的物理API,用于用户需要非常明确地控制数据类型、流、状态和时间的用例。此 API 正在不断发展,以支持对有界数据的高效批处理执行。

统一的 SQL 平台

社区一直在将 Flink 构建为统一(批处理和流式)SQL 分析平台的强大基础,并将继续这样做。

SQL 具有非常强大的跨批处理流语义,允许用户将相同的查询用于临时分析和连续查询。Flink 已经包含一个高效的统一查询引擎,以及广泛的集成。随着用户的反馈,这些得到不断改进。

更多连接器和变更数据捕获支持

Change-Data-Capture:通过附加到事务日志,直接从数据库中捕获数据更改流。社区正在增加更多的 CDC 集成。

External CDC connectors: Flink Ecosystem WebsiteBackground: FLIP-105 (CDC support for SQL) and Debezium.Data Lake Connectors:统一流式处理和批处理是 Data Lakes 的一个强大的价值主张:支持相同的 API、语义和引擎,用于对历史数据进行流式实时处理和批处理。社区正在增加与各种数据湖系统的更深层次的集成

 Apache Iceberg: Getting Started - Apache IcebergApache Hudi: https://hudi.apache.org/blog/apache-hudi-meets-apache-flink/

好书连接:《Flink原理与实践》:中文领域最详细的Flink入门教程 | Weizheng

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/710456.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号