一. 准备工作
这里有一堆json文件
使用文本工具打开其中一个文件,复制一条数据,每条数据以{}分割
到百度里搜索一个json解析工具
这样我们就可以更方便的找到我们需要的字段
二.数据导入
将数据导入到一个位置
我放在 /root/data/weibo中
使用cat 将多个小文件合并
在hive中创建表
create database weibo; use weibo;
创建ods层表并导入数据
create table ods_weibo(data string); load data local inpath '/root/data/weibo/weibo.json' into table ods_weibo_original;
weibo.json 是合并后的文件名
创建dwd层表,并将ods层中的数据转换格式后移入dwd层
上面我们josn解析后发现需要beCommentWeiboId和catchTime
create table dwd_weibo as select get_json_object(data ,'$.beCommentWeiboId') beCommentWeiboId get_json_object(data ,'$.catchTime') catchTime from ods_weibo;
dwd表中就会存入beCommentWeiboId,catchTime字段的数据。
接下来就是对dwd层数据经行下一步操作,直到获得需要的结果。
。



