栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 其他

开源大数据数据质量监控调研

其他 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

开源大数据数据质量监控调研

开源工具选择不多,目前了解到的就以下3种:

Qualitis

griffin

DolphinScheduler(最近有人上传了分支,支持数据质量监控功能)

1 Qualitis

腾讯微众银行开源,主要是看到依赖很多腾讯自己的大数据开源组件,感觉肯定很重了,运维弄不了,直接pass了。

2 Griffin 

ebay开源工具,调研的时候看到工具功能特别全,实际自己编译完成之后才知道有点坑。

编译了两个版本0.5.0,0.6.0,0.5版本需要自己对照源码去加Connector支持出hive以外的数据源。

0.6版本提供了JDBCbasedDataConnector。

griffin有以下不满足项目需求的点:

1 多数据源问题

griffin 0.6版本才有关于jdbc源的代码,目前文档较少,项目主要应用是mysql hive mongodb数据源整合,数据质量监控。目前看mongodb不支持。mysql整合需要配置,需熟悉一些griffin架构、源码才配置成功。

2 不支持邮件告警功能。

图表展示功能还可以,但是没有阈值监控报警。

3 依赖较多

下图为官网的griffin依赖,目前项目中没有用到livy 跟es,所以还需搭建这两个环境(livy还好,更像一个spark插件)

 3 DolphinScheduler

国内开源的工作流任务调度平台,个人感觉比zakaban、oozie好用,目前我们项目中调度都是使用海豚。调研数据质量监控看到一篇DolphinScheduler csdn官博的关于海豚支持数据质量监控的文章基于 DolphinScheduler 的数据质量检查实践。突然来了兴趣。

需下载github源码编译。目前在测试功能和测试是否对原有功能有所影响。目前看能满足项目中大部分数据质量监控功能。测试完毕准备上线。

对于我们项目目前缺点是仍然不支持非jdbc数据源。

 

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/279687.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号