●将数据从业务数据库经过抽取(extract) 、转换( transform)、加载(load) 至ODS层的过程
●整个ETL的实施占的工作量非常大,基本占整个数仓工作的70%。ETL做好了才能进行后续的数据分析。
➢数据抽取(Extraction)
●抽取的数据源可以分为结构化数据、非结构化数据、半结构化数据
➢抽取方式
●数据抽取方式有全量同步(初始化装载)、增量同步(数据库只需要第一次全量,之后增量就可以了)两种方式
●全量同步会将全部数据进行抽取,一般用于初始化数据装载
●增量同步方式会检测数据的变动,抽取发生变动的数据,一般用于数据更新
➢数据转换(Transformation)
●数据转换要经历数据清洗和转换两个阶段
-数据清洗主要是对出现的重复、二义性、不完整、违反业务或逻辑规则等问题的数据进行统一的处理。数据清洗主要是对半结构化、非结构化数据比较多
-数据转换主要是对数据进行标准化处理,进行字段、数据类型、数据定义的转换
➢数据加载( Loading )
●将最后处理完的数据导入到ODS层里
2.数据ETL工具


