栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

Sqoop做数据导入的参数

Sqoop做数据导入的参数

  • 导入(sqoop import )

    -----------------公有----------------------
    	--connect 指定mysql jdbc url
    	--password 指定mysql密码
    	--username 指定mysql账号
    	
    
    -------------------------导入HDFS使用---------------------------------
    	--append 追加数据
    	--as-textfile 数据保存到HDFS的时候是text文件格式
    	--as-parquetfile 数据保存到HDFS的时候是parquet文件格式
    	--delete-target-dir 在sqoop导入数据之前删除数据存放路径,防止MR运行报错
    	--fetch-size 指定每个批次从mysql拉取多少数据
    	--num-mappers[-m] 指定运行多少个Map task并行导入数据
    	--query 通过sql语句的方式查询符合要求的数据进行导入【select .. from .. where ..】
    		--columns 指定从mysql导出哪些列的数据
    		--table 指定从mysql哪个表导入数据
    		--where 筛选符合要求的数据导入到hdfs
    	--split-by 指定根据mysql哪个字段切片,将对应的切片分配给map task
    	--target-dir 导入的数据保存在HDFS哪个目录
    	--compress[-z] 导入数据到HDFS是否压缩
    	--compression-codec 指定压缩的格式
    	--null-string 指定mysql字符串列null值保存到HDFS的时候以什么形式保存
    	--null-non-string 指定mysql非字符串列null值保存到HDFS的时候以什么形式保存
    	--fields-terminated-by 指定数据导入HDFS的时候字段之间的分隔符是啥
    	--lines-terminated-by 指定数据导入HDFS的时候行之间的分隔符是啥
    	
    
    --------------------------增量导入使用---------------------------------
    	--check-column 根据哪个列判断数据是否为增量数据
    	--incremental 根据check-column指定列的值判断哪些数据需要进行导入[append[只导入新增的数据]/lastmodified[导入修改以及新增的数据]]
    	--last-value 上一次导入的check-column的最后一个值
    	
    
    -------------------------导入hive使用----------------------------------
    	--hive-import 指定数据导入hive表中
    	--hive-overwrite 数据导入HIVE表的时候是否覆盖历史数据
    	--create-hive-table 指定数据导入HIVE的时候,如果hive表不存在则自动创建
    	--hive-table 指定数据导入到HIVE哪个表中
    	--hive-partition-key 指定导入hive分区表的分区字段名
    	--hive-partition-value 指定导入hive分区表的分区字段的值
    ————————————————
    
  • 导出(sqoop export)

    -------------------公有-----------------------------
    --connect 指定mysql jdbc url
    --password 指定mysql密码
    --username 指定mysql账号
    
    
    ----------------导入mysql使用------------------------
    --columns 指定数据导出到mysql哪些列中
    --export-dir 指定从HDFS哪个路径导出数据
    --num-mappers[-m] 指定mapper数
    --table 指定数据导出到mysql哪张表
    --update-key 指定hdfs中数据与Mysql中数据判断是否为同一条数据的字段
    --update-mode updateonly[如果update-key的数据在mysql中已经存在则更新,如果不存在则不处理]/allowinsert[如果update-key的数据在mysql中已经存在则更新,如果不存在则插入]
    --input-null-string 指定hdfs中字符串列导出到mysql的时候以形式存储,"null"会直接存储为mysql的null
    --input-null-non-string 指定hdfs中非字符串列导出到mysql的时候以形式存储,"null"会直接存储为mysql的null
    --input-fields-terminated-by 指定HDFS文件中数据列的分隔符
    ----input-lines-terminated-by 指定HDFS文件中数据行的分隔符
    ————————————————
    
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/652523.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号