栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

数据湖概述

数据湖概述

数据湖是一种存储。
和传统数据仓库对比

特征数据仓库数据湖
数据来自事务系统、运营数据库和业务线应用程序的关系数据来自 IoT 设备、网站、移动应用程序、社交媒体和企业应用程序的非关系和关系数据
schema设计在数据仓库实施之前(写入型 Schema)写入在分析时(读取型 Schema)
性价比更快查询结果会带来较高存储成本更快查询结果只需较低存储成本
数据质量可作为重要事实依据的高度监管数据任何可以或无法进行监管的数据(例如原始数据)
用户业务分析师数据科学家、数据开发人员和业务分析师(使用监管数据)
使用场景批处理报告、BI 和可视化机器学习、预测分析、数据发现和分析

数据湖的解决方案主要有三种

delta(背后是spark开发公司Databricks)Apache Iceberg(NetFlix推出的)Apache Hudi(Ubser推出的)


ORC是hadoop生态圈的一种底层列式文件存储格式,HIVE的表就是按照ORC格式进行存储的。
iceberg实际上是上述的table format层。

数据写入ICEberg可以参考
https://blog.csdn.net/wypblog/article/details/109882022
iceberge的存储结构如下

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/712744.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号