- 一、总述
- 1. 数据采集
- 2. 数据计算
- 3. 数据服务
- 4. 数据应用
数据有序、有结构地分类和存储,从而产生价值。
实时:数据量大,要实时、准确
离线:采集、存储、计算
数据模型、数据研发、数据质量和运维保障工作
难点:
- 高效的数据模型和体系,数据易用,避免重复建设和不一致性,数据的规范性
- 高效的数据开发工具,数据质量保障
- 管理和控制存储和计算消耗
- 数据服务的稳定和性能
数据体系:
1. 数据采集日志采集体系:
- Web端日志采集技术
- APP端日志采集技术
- 各个场景的埋点
数据传输体系:
- 数据传输包括增量数据传输、日志数据传输
- 支持实时流式计算、各种时间窗口的批量计算
- 数据同步装置连异构数据库抽取时间窗口的数据
为了构建统一、规范、可共享的数据,建立两大体系:
- 数据存储及计算云平台
- 数据整合及管理体系
数据计算频率来看:
- 离线数据仓库:数据计算频率以天(小时、周、月),如T-1,每天凌晨处理上一天的数据
- 实时数据仓库:实时处理
分层理念:
- 操作数据层 Operation Data Store
- 明细数据层 Data Warehouse Detail
- 汇总数据层 Data Warehouse Summary
- 应用数据层 Application Data Store
元数据模型整合:
- 数据源元数据
- 数据仓库元数据
- 数据链路元数据
- 工具类元数据
- 数据质量元数据
接口服务化方式对外提供数据服务。针对不同的需求,构建在多种数据库之上。
可以使应用对底层数据存储透明,把海量数据高效的提供出去
4. 数据应用数据最大化发挥价值:搜索、推荐、广告等



