栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

《大数据之路:阿里巴巴大数据实践》笔记——离线开发篇

《大数据之路:阿里巴巴大数据实践》笔记——离线开发篇

数据开发平台

统一的计算平台( MaxCompute )、统一的开发平台( D2 等相关平 台和工具)、统一的数据模型规范和统一的数据研发规范

统一计算平台

MaxCompute特点

计算性能高且更加普惠
集群规模大且稳定性高
功能组件非常强大(SQL、MR、图、Spark等)
安全性高

统一开发平台

D2

在云端(D2)是集成任务开发、调试及发布,生产任务调度及大数据运维数据权限申请及管理等功能的一站式数据开发平台 并能承担数据分析工作台 的功能。

SQLSCAN

SQLSCAN 将在任务开发中遇到的各种问题,如用户编写的质量差、性能低、不遵守规范等,总结后形成规则,并通过系统及研发流程保障,事前解决故障隐患,避免事后处理。

DQC

主要有数据监控和数据清洗两大功能

在彼岸

数据测试的典型测试方法是功能测试,主要验证目标数据是否符合预期。除满足数据测试的数据对比组件之外,还有数据分布和数据脱敏组件。

任务调度系统

用Crontab的问题

①各任务之间的依赖基于执行时间实现,容易造成前面的任务未结束或失败而后面的任务已运行;②任务难以并发执行,增加了整体的处理时间:③无法设置任务优先级;④任务的管理维护很不方便,无法进行执行效果分析等。

调度引擎工作原理

基于以上两个状态机模型原理,以事件驱动的方式运行,为数据任务节点生成实例,并在调度树中生成具体执行的工作流。

执行引擎工作原理

特点及应用

1 调度配置(输入输出配置和自动识别相结合)
2 定时调度(设定任务的运行时间)
3 周期调度(可按照小时、日等时间周期运行)
4 手动运行(数据修复 或 临时操作)
5 补数据(开发完后初始化,比如补近一年数据)
6 基线管理(按优先级分类管理,保证重点数据优先产出)
7 监控报警(对出错、超时的节点,及可能超时的基线等,设置电话、短信、邮件等告警)

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/354467.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号