文章GitHub集群服务器规划数据来源仓库分层规划
文章- 用户行为采集平台概述 : https://blog.csdn.net/qq_44226094/article/details/123170914用户行为采集平台搭建 : https://blog.csdn.net/qq_44226094/article/details/122915599业务数据采集平台概述 : https://blog.csdn.net/qq_44226094/article/details/122993834业务数据采集平台搭建 : https://blog.csdn.net/qq_44226094/article/details/123171150电商数据仓库系统 : https://blog.csdn.net/qq_44226094/article/details/123013113数据仓库环境准备 : https://blog.csdn.net/qq_44226094/article/details/123464218数仓开发之ODS层 : https://blog.csdn.net/qq_44226094/article/details/123013143数仓开发之 DIM 层 : https://blog.csdn.net/qq_44226094/article/details/123474962数仓开发之 DWD 层 : https://blog.csdn.net/qq_44226094/article/details/123474986数仓开发之DWS层 : https://blog.csdn.net/qq_44226094/article/details/123475019数仓开发之ADS层 : https://blog.csdn.net/qq_44226094/article/details/123475030数仓报表导出 : https://blog.csdn.net/qq_44226094/article/details/123013149DolphinScheduler 工作流调度 : Superset : https://blog.csdn.net/qq_44226094/article/details/123057730Kylin 即席查询 : https://blog.csdn.net/qq_44226094/article/details/123110637Presto 即席查询 : https://blog.csdn.net/qq_44226094/article/details/123058328Zabbix 监控 : https://blog.csdn.net/qq_44226094/article/details/123121858Kerberos 用户认证 : 安全环境验证 : Ranger 权限管理 : Atlas 元数据管理 : 数据质量管理 :
SQL 和脚本 都统一上传 GitHub
GitHub : https://github.com/CPU-Code
集群服务器规划| 功能 | 服务名称 | 子服务 | cpu101 | cpu102 | cpu103 |
|---|---|---|---|---|---|
| 配置 | 8核 32G | 8核 32G | 8核 32G | ||
| Java环境 | JDK8 | √ | √ | √ | |
| 脚本 | Shell | √ | √ | √ | |
| 脚本 | Python | √ | √ | √ | |
| HA选举 | Zookeeper | Zookeeper Server | √ | √ | √ |
| 存储 | HDFS | NameNode | √ | √ | √ |
| DataNode | √ | √ | √ | ||
| JournalNode | √ | √ | √ | ||
| ZKFC | √ | √ | √ | ||
| 资源调度 | Yarn | NodeManager | √ | √ | √ |
| Resourcemanager | √ | √ | √ | ||
| 日志收集 | Flume | 采集日志 | √ | √ | |
| 消费 Kafka | √ | ||||
| 实时缓存 | Kafka | Kafka | √ | √ | √ |
| 全量同步 | DataX | DataX | √ | ||
| 增量同步 | Maxwell | Maxwell | √ | ||
| 离线查询 | Hive | Hive | √ | ||
| 计算引擎 | Spark | √ | √ | √ | |
| 元数据存储 | MySQL | MySQL | √ | ||
| 任务调度 | DolphinScheduler | MasterServer | √ | ||
| WorkerServer | √ | √ | √ | ||
| 数据可视化 | Superset | √ | |||
| 即席查询 | Presto | Coordinator | √ | ||
| Worker | √ | √ | √ | ||
| 即席查询 | Kylin | √ | |||
| 集群监控 | Zabbix | √ | √ | √ | |
| 元数据管理 | Atlas | √ |
| 行为日志数据 | 业务数据 | |
|---|---|---|
| 全量 | 增量 | |
| 页面浏览记录 | activity_info 活动表 | cart_info 加购表 ( 特殊 ) |
| 动作记录 | activity_rule 优惠规则表 | comment_info 商品评论表 |
| 错误记录 | base_category1 商品一级分类 | coupon_use 优惠卷领用表 |
| 曝光记录 | base_category2 商品二级分类 | favor_info 收藏表 |
| 启动记录 | base_category3 商品三级分类 | order_detail_activity 订单明细活动关联表 |
| base_dic 编码字典表 | order_detail_coupon 订单明细优惠卷关联表 | |
| base_province 省份表 | order_detail 订单详情表 | |
| base_region 地区表 | order_info 订单表 | |
| base_trademark 品牌表 | order_refund_info 退单表 | |
| cart_info 加购表(特殊) | order_status_log 订单状态表 | |
| coupon_info 优惠卷表 | payment_info 支付表 | |
| sku_attr_value SKU平台属性表 | refund_payment 退款表 | |
| sku_sale_attr_value SKU销售属性表 | user_info 用户表 | |
| sku_info SKU商品表 | ||
| spu_info SPU商品表 |
ods : 原始数据层dim : 公共维度层dwd : 明细数据层dws : 汇总数据层ads : 数据应用层



