栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

数据治理与元数据管理

数据治理与元数据管理

数据治理
又称数据管控,偏向于管理
强调 组织 制度 流程 技术
组织:相关部门,角色职责
制度:具体管理办法,操作手册
流程:数据如何落地,如何执行
技术:技术支撑,元数据采集,数据质量,任务建设

不能看到问题在去管理,先从架构入手

数据的价值:1.服务–决策/操作(驾驶舱,资产情况) 2.营销–获利 3.风控–风险(人行 征信 银保 反洗钱 反欺诈)

举例 1.潜在客户:申请 沉睡唤醒 销户 担保人 员工(行内-在职/离职)
2.号码管理:员工号/组织机构 HR员工号:属于一个或多个组织机构 OA系统 财务系统 绩效系统 几百人的公司 多套编码
数据治理加工和使用
流程
1.数据源:内部(核心-渠道-风险-营销)/外部(公安-司法-工商-税务)
2.数据采集:ETL CDC(源系统无法给出增量 做日志捕获) 爬虫 日志解析
3.数据资源池:数据湖-ODS-数仓-数据集市-元数据(数据安全,数据质量)
4.数据服务:指标体系-客户画像-客户标签-报表分析
5.数据消费:营销-风控-服务
系统应用 业务布局,数据引用,业务标准
数据采集 接口规范,字符集,命名规范,实现方式
数据模型 主题域,数据类型,值域,参考
元数据 定义,采集,浏览,维护
数据质量 行数,总分账,浏览,维护
数据安全 访问安全,数据脱敏,数据隔离,数据加密
数据服务 服务主题,服务封装,服务交互,服务管理

元数据
描述数据的数据
种类 软件包(软件清单) IT资产(硬件清单) 网路布局(网络设计图) 业务规划 组织架构 批量任务 项目管理 文件数据库影响
举例 城市=数仓 地图=元数据(高度抽象的)
元数据功能: 浏览-怎么看 管理-权限,增删改 执行-元数据获取,维护
1.浏览
上游-源生数据,来源表 下游-目标表 向外-所属数据库 向里-字段,索引 横看-涉及到该表的脚本信息
2.怎么用
全链分析 包括影响分析(下游影响,字段修改) 血缘分析(上游影响,某个标签有问题,数据异常值)
活力分析 热度,表访问频度 核心系统2000+表 高频的表,解决95%业务问题大概100多张
孤立对象分析 加bak,加日期,加工号,不好删,垃圾表太多严重损耗资源,看该表向上向下,不是参数表就是垃圾表
一致性分析 DDL和Excel/Erwen 对比
版本分析 DDL表的列变化
质量分析 元数据质量高不高(如线下文档维护怎么样,填写项,映射)
3.采集
系统信息 ip,服务器,软件,数据库
应用信息 介绍,引用,触达方式
数据文件信息 数据文件,字段,加工工具
业务元数据 技术元数据的业务解释,指标,业务术语,SQL样例
数据加工信息 ETL算法,Mapping,注释

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/761525.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号