今天给同事处理标签的时候,
需要统计核实一下tags里面所有tags分类量级。
这是hive库里面数据的格式。
数据标签里面的tags里面是标签名,权重值。
step1.给Map炸开成两列 这样就可以把所有的标签名拿出来了
step2.拿出所有的key值和did_md5的值
step3.针对key值进行聚合和统计
lateral view outer explode(tags)kv as k,v
tags里面有几个就炸几行

今天给同事处理标签的时候,
需要统计核实一下tags里面所有tags分类量级。
这是hive库里面数据的格式。
数据标签里面的tags里面是标签名,权重值。
step1.给Map炸开成两列 这样就可以把所有的标签名拿出来了
step2.拿出所有的key值和did_md5的值
step3.针对key值进行聚合和统计
lateral view outer explode(tags)kv as k,v
tags里面有几个就炸几行