栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

数据湖核心概念、架构设计

数据湖核心概念、架构设计

”数据湖“的核心概念,数据湖不是技术组件、框架,而是一种概念、解决问题思路、治理方案。在多源异构数据存储层面与”数据中台“最大的区别是数据与业务解耦,保持数据的原始性、完整性,之前多数数据中台是围绕着业务进行采集、存储、归纳、转换。

 

数据湖类型

自建hadoop生态数据湖、云上数据湖、数据湖产品:

湖类型类型多元异构存储分析能力
Hadoop本地HDFSSpark、MR、Flink、Tez
AliCloud云上OSSEMR、DDI
Amazon云上S3EMR
数据湖框架

Data Lake 三剑客——Delta、Hudi、Iceberg 对比分析:

DeltaHudiIceberg
Incremental IngestionSparkSparkSpark
ACID updatesHDFS, S3 (Databricks), OSSHDFSHDFS, S3
Upserts/Delete/Merge/UpdateDelete/Merge/UpdateUpserts/DeleteNo
Streaming sinkYesYesYes(not ready?)
Streaming sourceYesNoNo
FileFormatsParquetAvro,ParquetParquet, ORC
Data SkippingFile-Level Max-Min stats + Z-Ordering (Databricks)File-Level Max-Min stats + Bloom FilterFile-Level Max-Min Filtering
Concurrency controlOptimisticOptimisticOptimistic
Data ValidationYes (Databricks)NoYes
Merge on readNoYesNo
Schema EvolutionYesYesYes
File I/O CacheYes (Databricks)NoNo
CleanupManualAutomaticNo
CompactionManualAutomaticNo
数据湖思想:

多源异构数据、统一存储、高分析能力、原始数据保留,读时Schema 例如:sparksql df、 ds 读取hdfs数据 读取时候创建Schema。

数据湖架构设计:

1、分离数据与业务。

2、存储于计算分离(云厂商可以OSS典型分离)自建成本DataNode、NodeManager会部署在同一个节点,还有移动计算to数据节点性能考虑。

3、lamdba 、kappa 、iota架构。

4、管理服务、合适组件与工具。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/742442.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号