栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

datax安装配置部署

datax安装配置部署

datax安装需要的环境
JDK(1.8以上,推荐1.8)
Python(推荐Python2.6.X)
Apache Maven 3.x (Compile DataX)
1.python环境的安装
python语言的安装不需要去配环境变量,安装的过程只要勾选了自动配环境变量就好了
但是需要注意的事python2和python3有着很大的语法区别,所以在选择的时候要注意好选择需要的版本
然后搜索框中输入“cmd”——回车,启动命令提示符——输入Python即可查询语言是否安装成功

2.dataX的理解
DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、HDFS、Hive、Oceanbase、Hbase、OTS、ODPS 等各种异构数据源之间高效的数据同步功能。DataX采用了框架 + 插件 的模式。
它有两种形式,框架+插件模式。还有一种纯插件模式
从设计之初,DataX就把异构数据源同步作为自身的使命,为了应对不同数据源的差异、同时提供一致的同步原语和扩展能力,DataX自然而然地采用了框架 + 插件 的模式:
插件只需关心数据的读取或者写入本身。
而同步的共性问题,比如:类型转换、性能、统计,则交由框架来处理。
作为插件开发人员,则需要关注两个问题:
数据源本身的读写数据正确性。
如何与框架沟通、合理正确地使用框架。
然后他会把数据当作是一个job,然后先把job细分为多个task,然后在把task分组成多个taskgroup,然后在更具组进行处理
假如是一个100张分表的mysql数据同步到odps里面,20个并发,则先分4个taskgroup,因为taskgroup默认为5个task为一组。
然后每个组分25个数据,每个task处理5个

 3.安装datax

JDK(1.8以上,推荐1.8)
Python(推荐Python2.6.X)
Apache Maven 3.x (Compile DataX)

上述环境配置好,首先去官网下载datax安装包,下载地址:http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz(建议使用迅雷下载,速度稍快点)  

百度云链接:https://pan.baidu.com/s/1DXSY5dgE8flFIGcnQ0J2cw 
提取码:ks60

下载后解压至本地某个目录,进入bin目录,即可运行同步作业:

以我的本地解压后路径为例:  D:dataxdataxbin

windows下 dos命令:

windows+R, cmd

d:  

cd  D:dataxdataxbin 

python  datax.py  ../job/job.json

 最后出现:  说明datax安装成功,乱码原因因为编辑器编码问题:

 在自检脚本前运行 CHCP 65001,设置命令窗口编码格式

 随后执行 python  datax.py  ../job/job.json      自检脚本

 执行结果:

 

至此datax安装成功; 

 

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/695658.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号