第1章 数据仓库概念
第2章 项目需求及架构设计
2.1 项目需求分析2.2 阿里云技术框架
2.2.1 技术选型2.2.2 系统数据流程设计 第3章 数据生成模块
3.1 埋点数据基本格式3.2 事件日志数据
3.2.1 商品列表页(loading)3.2.2 商品曝光(display)3.2.3 商品详情页(newsdetail)3.2.4 购物车(cart)3.2.5 广告(ad)3.2.6 消息通知(notification)3.2.7 评论(comment)3.2.8 收藏(favorites)3.2.8 点赞(praise)3.2.10 错误日志(error) 3.3 启动日志数据(start) 第4章 数据采集模块
第1章 数据仓库概念- 数据仓库定义(Data Warehouse),是为企业所有决策制定过程,提供所有系统数据支持的战略集合。数据仓库好处:可以帮助企业改进业务流程、控制成本、提高产品质量等。数据仓库做什么:清洗、转义、分类、重组、合并、拆分,统计等。数据仓库输出到哪:报表系统、用户画像、推荐系统、机器学习、风控系统等。
- 采集埋点日志数据:用户行为数据仓库,用户来到网站/APP的行为(干了那些事),包括一些异常或故障。(以文件的形式存储)采集业务数据库中数据:业务数仓,网站/APP中的各功能组件运行时所产生的数据。 (以MySQL数据库的形式存储)数据仓库的搭建(用户行为数仓、业务数仓)分析统计各种业务指标:比如日活跃用户、新增用户、交易额等。对结果进行可视化展示
- 公共字段:比如基本所有安卓手机都包含的字段。业务字段:埋点上报的字段,有具体的业务类型。
事件标签:display
事件标签:newsdetail
事件名称:cart
事件名称:ad
事件标签:notification
评论表标签:comment
收藏标签:favorites
点赞标签:praise
错误日志标签:error,帮助发现问题,进行改善提升。
启动日志标签:start
##加粗样式 4.5 Flume安装及使用
Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构,灵活简单。
- Source:主要负责采集工作,采用 TailDir 组件用于监控文件或文件夹的变化。Channel:扮演数据管道的角色,对数据进行缓冲。采用非持久化的 Memory类型。
。。。23



