栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

DataHub: 现代数据栈的元数据平台--如何将数据血缘关系写入DataHub

DataHub: 现代数据栈的元数据平台--如何将数据血缘关系写入DataHub

什么是Data lineage?

在大数据时代,系统的数据来源广泛,各种类型的数据快速产生且爆发性增长。从数据的产生、ETL
、数据融合分析、数据应用直至最终消亡,在数据流转过程中数据之间的关联关系称为数据血缘关系。

数据血缘揭示了数据的生命周期——目标是记录并显示从数据产生到消亡的完整数据流。
数据血缘描述数据处理流程、表、报表、即席查询之间的流向关系、表与表的依赖关系、表与离线ETL任务、调度平台、计算引擎之间的依赖关系。

数据血缘是数据治理的重要一环,用于追踪数据的来源、评估数据价值、数据生命周期管理、数据安全管控。

Data lineage includes the data origin, what happens to it and where it moves over time. Data lineage gives visibility while greatly simplifying the ability to trace errors back to the root cause in a data analytics process.

如何写入数据血缘数据 显示效果

本示例创建三个数据集tableA、tableB、tableC, 由数据集A、B关联统计得到数据集C,如用户点击明细日志和用户表关联,按天统计PU/UV数据
显示效果如下:

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/728835.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号