栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

Sqoop数据接入的经验分享和思考

Sqoop数据接入的经验分享和思考

文章目录
  • 前言
  • 一、Sqoop增量接入
  • 二、Sqoop全量接入
  • 总结


前言

当我们将关系型数据库数据接入到集群时,一般会考虑选择增量接入还是全量接入,这两种接入方式会影响数据源在数仓ods层结构。


一、Sqoop增量接入

增量接入一般可以根据数据更新时间字段或者主键id来筛选数据库表新增的数据,只将部分数据接入到集群,对于历史数据则直接一次性接入放在第一个分区(ini数据初始化分区)。
这种方式更加节省资源,但需要仔细确认好数据源的更新规则,避免出现数据缺漏的情况。

二、Sqoop全量接入

全量接入是直接将数据库的数据全部接入到集群,相当于复制粘贴。
这种方式简单易操作,但当表数据量巨大,或者每天只更新少量数据的情况下,这样会造成很大的资源浪费。


总结

当数据库表数据量很大,每天更新的数据占比很少时,推荐使用增量接入。
需要注意的是,如果数据库表增删改查不规范,用户系统不确定性太强,用户操作可以引发直接删除表数据且没有删除标记时,使用增量接入会比较麻烦,容易产生已删除数据仍存在历史分区中的情况。
Sqoop接入参考:Hadoop学习&实战笔记

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/687769.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号