datax下载地址
1、解压datax包
2、具体安装测试datax工具可以在网上进行查询。其对jdk python maven 都有版本的要求。需确认当前系统中的版本。datax安装以及测试方式
3、确认安装无误后,在安装目录下,或者安装目录的bin目录下新建一个json文件,文件名称自定义。新建的json文件格式(datax bin目录下执行python datax.py -r mysqlreader -w musqlwriter 命令可得到json文件的模板)
4、impala 导入输入到mongo 样例
{
"job": {
"content": [
{
//数据来源
"reader": {
"name": "hdfsreader",
"parameter": {
"path": "/user/hive/warehouse*", // impala 数据库内存储的数据文件,最后的hadoopclient@**.*** 。如果haveKerberos为true,则必选。
"fileType": "text", // 数据文件类型 表示TextFile文件格式。还包括ORC、RC、SEQ、CSV和parquet 等格式
"encoding": "UTF-8", //读取文件的编码配置。
"fieldDelimiter": "u0001" //读取的字段分隔符
}
},
// 数据导出 去处
"writer": {
"name": "mongodbwriter",
"parameter": { // 配置数据库相关信息
"address": [ // mongo 地址 集群
"***.***.***.***:****"
],
"userName": "kafka", // 链接数据库用户名
"userPassword": "123456", // 链接数据库密码
"dbName": "kafka", //数据库名称
"collectionName": "tydm_0303_z", //数据库表名
"column": [ // mongo 内存储的 字段名与类型
{
"name":"tydm",
"type":"string"
}
],
"writeMode": {
"isReplace": "false",
"replaceKey": "_id"
}
}
}
}
],
"setting": {
"speed": {
"channel": "1"
}
}
}
}
执行导入命令 : datax安全路径/bin datax.py json文件目录



