栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

云平台数据统计分析平台项目

云平台数据统计分析平台项目

数据统计分析平台整体流程

从线上数据库备份到备份库,再通过ETL加载到数据仓库,

然后对接kylin系统,根据数据模型的设计进行数据预计算,

生成预统计数据存储到hbase中,最接报表系统和数据可视化系统。

数据分析优化

聚合组优化,cubeplanner优化,根据历史查询记录对cubeid做剪枝优化,采用贪心算法,每次分析计算每个cubeid的效益,选取效益最高的cubeid,因为某些cubeid可以通过已有的cubeid计算出来,最终达到数据膨胀率阈值后停止;

数据仓库的建设,分成设备数据、用户数据和生产数据。

ETL对数据做清洗,过滤掉一些无效数据,以及做一些数据转换,如在kylin预分析之前,为减少一些维度的数量,需要对时间维度做转换,减少数据预分析的数量;

可视化系统

后台对接kylin系统,前端根据用户输入的维度查询条件获取数据展示前端,形成数据表格和数据折线图,体现数据随着时间推进的变化趋势;

最终成果

数据查询效率提供10倍左右;

遇到问题:

1、因系统重启并且误用tmp临时目录作为hdfs的存储目录,导致hdfs和kylin的所有元数据和业务数据都丢失,解决方案为重新创建kylin model和cube等信息,hdfs重新建立数据仓库表,已生成的统计数据丢失了,可视化系统改为从旧数据统计系统获取数据。

2、 数据分析任务失败没能及时发现,需要人工检查,有时候需要外部门反馈才发现,恢复数据     困难。解决方案为增加任务执行失败告警,监控各个任务的执行时间和结果,建立超时和失败等告警,及时发现问题,及时恢复数据。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/747776.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号