栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

impala导出数据到本地(阿里 datax工具 impala 数据导入到mongo)

impala导出数据到本地(阿里 datax工具 impala 数据导入到mongo)

datax下载地址

1、解压datax包

2、具体安装测试datax工具可以在网上进行查询。其对jdk python maven  都有版本的要求。需确认当前系统中的版本。datax安装以及测试方式

3、确认安装无误后,在安装目录下,或者安装目录的bin目录下新建一个json文件,文件名称自定义。新建的json文件格式(datax bin目录下执行python datax.py -r mysqlreader -w musqlwriter 命令可得到json文件的模板)

4、impala 导入输入到mongo 样例

{
    "job": {
        "content": [
            {
            //数据来源
            "reader": {
                     "name": "hdfsreader",
                     "parameter": {
                         "path": "/user/hive/warehouse*", // impala  数据库内存储的数据文件,最后的hadoopclient@**.*** 。如果haveKerberos为true,则必选。
                         "fileType": "text",   // 数据文件类型  表示TextFile文件格式。还包括ORC、RC、SEQ、CSV和parquet 等格式
                         "encoding": "UTF-8",       //读取文件的编码配置。
                         "fieldDelimiter": "u0001"    //读取的字段分隔符
                     }
 
                 },

                 // 数据导出 去处
                  "writer": {
                                     "name": "mongodbwriter",  
                                     "parameter": {  //  配置数据库相关信息
                                         "address": [  // mongo 地址 集群
                                             "***.***.***.***:****"
                                         ],
                                         "userName": "kafka",       // 链接数据库用户名
                                         "userPassword": "123456",  // 链接数据库密码
                                         "dbName": "kafka",         //数据库名称
                                         "collectionName": "tydm_0303_z", //数据库表名
                                         "column": [    // mongo  内存储的 字段名与类型
                                             {
                                                 "name":"tydm",
                                                 "type":"string"
                                             }
                                            
                                         ],
                                         "writeMode": {
                                             "isReplace": "false",
                                             "replaceKey": "_id"
                                         }
                                     }
                                 }
            }
        ],  
        "setting": {
            "speed": {
                "channel": "1"
            }
        }
    }
 }

执行导入命令 : datax安全路径/bin datax.py  json文件目录

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/771905.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号