DataX 是阿里云 DataWorks数据集成 的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、Oceanbase、SqlServer、Postgre、HDFS、Hive、ADS、Hbase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS 等各种异构数据源之间高效的数据同步功能
详细介绍:https://github.com/alibaba/DataX
1. 安装java
JDK(1.8以上,推荐1.8) Python(2.6以上) Apache Maven 3.x (Compile DataX) 1.java安装 tar -zxvf jdk-8u231-linux-x64.gz mv jdk1.8.0_231 /usr/local/ cd /usr/local/ ln -s jdk1.8.0_231/ jdk
添加系统变量
vi /etc/profile ###最下面添加 export JAVA_HOME=/usr/local/jdk export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar export PATH=$JAVA_HOME/bin
生效变量
source /etc/profile
2. Maven安装
tar -zxvf apache-maven-3.8.4-bin.tar.gz mv apache-maven-3.8.4 /usr/local/ && cd /usr/local/ ln -s apache-maven-3.8.4/ maven
添加系统变量
vi /etc/profile ###最下面添加两个 export MAVEN_HOME=/usr/local/maven export PATH=$JAVA_HOME/bin:$MAVEN_HOME/bin:$PATH
生效变量
source /etc/profile
安装完成
[root@Data1 local]# mvn -v Apache Maven 3.8.4 (9b656c72d54e5bacbed989b64718c159fe39b537) Maven home: /usr/local/maven Java version: 1.8.0_231, vendor: Oracle Corporation, runtime: /usr/local/jdk1.8.0_231/jre Default locale: en_US, platform encoding: UTF-8 OS name: "linux", version: "3.10.0-1160.31.1.el7.x86_64", arch: "amd64", family: "unix"
- python2安装(默认都安装完成,没有yum install python)
[root@Data1 local]# python2 Python 2.7.5 (default, Nov 16 2020, 22:23:17) [GCC 4.8.5 20150623 (Red Hat 4.8.5-44)] on linux2 Type "help", "copyright", "credits" or "license" for more information.
datax安装
1.工具部署
直接下载DataX工具包:wget http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz
下载后解压至本地某个目录,进入bin目录,即可运行同步作业:
tar -zxvf datax.tar.gz && mv datax /usr/local/ cd /usr/local/datax/bin/ python datax.py /usr/local/datax/job/job.json
报错:
com.alibaba.datax.common.exception.DataXException: Code:[Common-00], Describe:[您提供的配置文件存在错误信息,请检查您的作业配置 .] - 配置信息错误,您提供的配置文件[/usr/local/datax/plugin/reader/._drdsreader/plugin.json]
进入查询,删除文件
cd /usr/local/datax/plugin/reader ll -a [root@Data1 reader]# ll -a total 76 drwxr-xr-x 21 502 games 4096 Feb 19 21:05 . drwxr-xr-x 4 502 games 66 Feb 19 21:05 .. drwxr-xr-x 3 502 games 224 Feb 19 21:05 cassandrareader -rwxr-xr-x 1 502 games 212 Oct 12 2019 ._cassandrareader .... 删除._开头语文件 rm -f ._* cd /usr/local/datax/plugin/writer/ rm -f ._*
再次运行成功安装完成:
python /usr/local/datax/bin/datax.py /usr/local/datax/job/job.json 2022-02-19 21:12:48.212 [job-0] INFO JobContainer - 任务启动时刻 : 2022-02-19 21:12:38 任务结束时刻 : 2022-02-19 21:12:48 任务总计耗时 : 10s 任务平均流量 : 253.91KB/s 记录写入速度 : 10000rec/s 读出记录总数 : 100000 读写失败总数 : 0



