目录
1 数据成本不断升高
2 如何精细化成本管理
2.1 全局资产盘点
2.2 成本核算
2.3 查找问题
2.4 治理优化
2.5 治理效果评估
1 数据成本不断升高
数据上线容易下线难
任务不敢轻易下线,但又存在不需要的任务
低价值的数据应用消耗了大量的资源
有些表甚至宽表占用资源,但下游却没什么重要产出
烟囱式的开发模式
模型设计不合理,表不能复用,对表重复开发加工
数据倾斜
浪费大量计算资源
数据未设置生命周期
导致一些汇总层或者明细层数据越来越多,需要更大的存储空间
调度周期不合理
所有任务都在同一时间点开始,一瞬间资源不够,但是其他时间点资源又用不到,我们可以错峰执行,一般大数据凌晨是高峰期,产出核心任务即可
任务参数配置
一些通过参数请求资源的任务,比如spark这种,设置不需要的过大的资源导致浪费
数据未压缩
更大的存储需要磁盘空间
2 如何精细化成本管理
2.1 全局资产盘点
基于元数据中心提供的数据血缘,建立全链路的数据资产视图,计算末端数据的成本和价值
中间数据,在计算价值的时候,还要考虑下游表被使用的情况,比较难计算清楚,所以我们选择从末端数据开始。这与我们下线表的顺序也是一致的,如果数据的价值很低,成本很高,我们也是从末端数据开始下线的
2.2 成本核算
2.3 查找问题
持续产生成本,但是已经没有使用的末端数据数据应用价值很低,成本却很高,这些数据应用上游链路上的所有相关数据数据应用价值很低,成本却很高,这些数据应用上游链路上的所有相关数据高峰期和高消耗的数据
2.4 治理优化
对表进行评估,对无用或低价值数据下线,从下游开始下线,有报表等先对报表销毁在下线
解决数据倾斜等开发bug
数据压缩,生命周期等优化磁盘空间
任务错峰执行
需要申请资源的任务先评估资源后上线
2.5 治理效果评估
主要看这几点:
- 下线了多少任务和数据这些任务每日消耗了多少资源数据占用了多少存储空间



