数据统计分析平台整体流程
从线上数据库备份到备份库,再通过ETL加载到数据仓库,
然后对接kylin系统,根据数据模型的设计进行数据预计算,
生成预统计数据存储到hbase中,最接报表系统和数据可视化系统。
数据分析优化
聚合组优化,cubeplanner优化,根据历史查询记录对cubeid做剪枝优化,采用贪心算法,每次分析计算每个cubeid的效益,选取效益最高的cubeid,因为某些cubeid可以通过已有的cubeid计算出来,最终达到数据膨胀率阈值后停止;
数据仓库的建设,分成设备数据、用户数据和生产数据。
ETL对数据做清洗,过滤掉一些无效数据,以及做一些数据转换,如在kylin预分析之前,为减少一些维度的数量,需要对时间维度做转换,减少数据预分析的数量;
可视化系统
后台对接kylin系统,前端根据用户输入的维度查询条件获取数据展示前端,形成数据表格和数据折线图,体现数据随着时间推进的变化趋势;
最终成果
数据查询效率提供10倍左右;
遇到问题:
1、因系统重启并且误用tmp临时目录作为hdfs的存储目录,导致hdfs和kylin的所有元数据和业务数据都丢失,解决方案为重新创建kylin model和cube等信息,hdfs重新建立数据仓库表,已生成的统计数据丢失了,可视化系统改为从旧数据统计系统获取数据。
2、 数据分析任务失败没能及时发现,需要人工检查,有时候需要外部门反馈才发现,恢复数据 困难。解决方案为增加任务执行失败告警,监控各个任务的执行时间和结果,建立超时和失败等告警,及时发现问题,及时恢复数据。



