问题一:为啥不用普罗米修斯加graph
不可靠答案:部分指标需要运算啥的。数据仓库分层,没法看到流式处理
spark是因为要用于计算
1解压缩 2设置环境变量,3修改env和defaults
livy为服务提供restful让spark.
ES 存储数据
Griffin:
Apache 顶级项目,是一个优秀并且完备的数据质量检查系统,
具有独立的UI、调度和内置规则,依赖于 Apache Livy 来提交 Spark 作业
一个独立的系统,较难无缝地接入到工作流当中来实现当出现严重数据质量问题时的阻断。
Qualitis:
微众开源的数据质量系统,具备较丰富的内置规则,界面简洁容易使用
依赖于 linkis 作为执行Spark作业的引擎
如果想要实现无缝接入工作流需要依赖DataSphere Studio,不够轻量级



