栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

数据采集之业务数据采集整理

数据采集之业务数据采集整理

业务数据存储在mysql中,分为增量表和全量表,此项目中有一台在hadoop102下的mysql
存储全量和增量业务数据。

1.全量数据

全量数据使用datax存进hdfs中

2.增量数据

增量数据使用maxwell+flume传输到hdfs中
首次使用,需要进行全量同步,可以使用maxwell-bootstrap脚本
(1)maxwell(可以实时的监控mysql)
(2)kafka
(3)flume组件为
自定义时间戳拦截器
kafkaSource
filechannel
hdfsSink

增量表同步,需要在首日进行一次全量同步,后续每日才是增量同步。首日进行全量同步时,需先启动数据通道,包括Maxwell、Kafka、Flume,然后执行增量表首日同步脚本mysql_to_kafka_inc_init.sh进行同步。后续每日只需保证采集通道正常运行即可,Maxwell便会实时将变动数据发往Kafka。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/707802.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号