栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

sparkSQL之拆分Map为多列

sparkSQL之拆分Map为多列

发现问题

今天给同事处理标签的时候,
需要统计核实一下tags里面所有tags分类量级。
这是hive库里面数据的格式。

数据标签里面的tags里面是标签名,权重值。

解决思路

step1.给Map炸开成两列 这样就可以把所有的标签名拿出来了
step2.拿出所有的key值和did_md5的值
step3.针对key值进行聚合和统计

写sql代码

得到结果

总结(复习)

lateral view outer explode(tags)kv as k,v
tags里面有几个就炸几行

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/753990.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号