栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

dataX基础教程

dataX基础教程

分享大佬细做:

https://github.com/alibaba/DataX/blob/master/hdfsreader/doc/hdfsreader.md

从hive中的表中将数据导入到PolarDB,使用的工具是dataX

hive表中的数据存储在hdfs文件系统:

1.根据上面连接分析可知: 如果hive表创建时,文件存储格式如果设置
为parquet是不能够进行导入成功的。
--亲测不行


2.将hive表的存储文件设置为其他格式,如orc格式
  --待测试

下面是hive建表语句(将表文件存储在hdfs文件存储系统):

暂时没有传成功

---parquet的文件存储格式---

CREATE EXTERNAL TABLE if not exists `dws_qy_middle_bookid_rank_test_parquet`(
  `book_id` int COMMENT '书籍ID', 
  `admin_id` int COMMENT '渠道ID', 
  `book_name` string COMMENT '书籍名称', 
  `book_category_name` string COMMENT '书籍类型', 
  `yesterday_money` double COMMENT '昨日书籍订单数(充值金额)', 
  `week_money` double COMMENT '7日以来书籍订单数(充值金额)', 
  `month_money` double COMMENT '30日以来书籍订单数(充值金额)', 
  `yesterday_consumes` int COMMENT '昨日书籍订阅数量(消费书币数量)', 
  `week_consumes` int COMMENT '7日以来书籍订阅数量(消费书币数量)', 
  `month_consumes` int COMMENT '30日以来书籍订阅数量(消费书币数量)', 
  `yesterday_readers` int COMMENT '昨日书籍的浏览量(uv)', 
  `week_readers` int COMMENT '7日书籍的浏览量(uv)', 
  `month_readers` int COMMENT '30日书籍的浏览量(uv)', 
  `date_day` string COMMENT '关联获取数据时间', 
  `vipid` int COMMENT 'vipID', 
  `business_id` int COMMENT '商务ID')
  PARTITIonED BY ( 
  `dt` string)
ROW FORMAT SERDE
'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe'
STORED AS INPUTFORMAT
'org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat'
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat'
LOCATION
'hdfs://nameservice1/user/hive/warehouse/prod/data_qiyue/middle/dws/test_parquet_dws_qy_middle_bookid_rank'
TBLPROPERTIES ( 'orc.compress'='snappy');


--orc格式存储文件---

CREATE  TABLE `test_orc`(
`advertiser_id` string, 
`ad_plan_id` string, 
`cnt` bigint)
PARTITIonED BY ( 
`day` string, 
`type` tinyint COMMENT '0 as bid, 1 as win, 2 as ck', 
`hour` tinyint)
ROW FORMAT DELIMITED 
NULL DEFINED AS '' 
STORED AS INPUTFORMAT 
'org.apache.hadoop.hive.ql.io.orc.OrcInputFormat' 
OUTPUTFORMAT 
'org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat'
LOCATION
'hdfs://namenode/hivedata/warehouse/pmp.db/test_orc'
TBLPROPERTIES (
'transient_lastDdlTime'='1465992916')
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/707235.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号