栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

DataHub: 现代数据栈的元数据平台--如何与spark集成,自动产生spark作业的数据血缘关系?

DataHub: 现代数据栈的元数据平台--如何与spark集成,自动产生spark作业的数据血缘关系?

DataHub如何集成spark?

DataHub通过如下方式集成spark:

提供了一个轻量级的Java代理,它侦听Spark应用程序和作业事件,并实时将数据血缘元数据推送到DataHub Java代理侦听应用程序的开始、结束事件、SQLExecution的开始、结束事件,以在Datahub中创建pipelines (即DataFlow)和任务(即DataJob),以及对正在读写的数据集间的数据血缘关系。

如下面的代码(源码参见:TestSparkJobsLineage.java

 spark = SparkSession.builder()
        .appName(APP_NAME)
        
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/751856.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号