栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

hive over窗口函数使用

hive over窗口函数使用

前提:
按照OVER() 进行partion,然后每个分组执行函数计算。

最后为每一个分组增加对应的字段数据。最后原始数据行数

没有改变,可以在此基础上继续使用。

一、计算累计和
统计1-12月的累积销量,即1月为1月份的值,2月为1.2月份值的和,3月为123月份的和,12月为1-12月份值的和

代码块
Plain Text
SELECt
month,SUM(amount) month_amount,
SUM( SUM(amount)) OVER (ORDER BY month ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) AS cumulative_amount
FROM table_name
GROUP BY month
ORDER BY month;
其中:

SUM( SUM(amount)) 内部的SUM(amount)为需要累加的值,在上述可以换为 month_amount

ORDER BY month 按月份对查询读取的记录进行排序,就是窗口范围内的排序

ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW 定义起点和终点,UNBOUNDED PRECEDING 为起点,表明从第一行开始, CURRENT ROW为默认值,就是这一句等价于:

ROWS UNBOUNDED PRECEDING

PRECEDING:在前 N 行的意思。

FOLLOWING:在后 N 行的意思。

注意以下几点:

1)order by 后面省去了窗口子句,还原起来就是order by xxx range between unbounded preceding and current row.

2)partition by之后没有使用order by,窗口大小默认就是整个分组

二、排序行号
代码块
Plain Text
SELECt
column_name,
RANK() OVER (ORDER BY column_name DESC) AS rank,
DENSE_RANK() OVER (ORDER BY SUM(column_name) DESC) AS dense_rank
FROM table_name
RANK()在出现等级相同的元素时预留为空,DENSE_RANK()不会。

Eg:某产品类型有两个并列第一

RANK():第一二为1,第三位3

DENSE_RANK():第一二为1,第三位2

代码块
Plain Text
SELECt
ROW_NUMBER() OVER (ORDER BY column_name DESC)AS row_name
FROM table_name;
上面两个的区别?如下:

(1)Rank函数返回一个唯一的值,除非遇到相同的数据时,此时所有相同数据的排名是一样的,
同时会在最后一条相同记录和下一条不同记录的排名之间空出排名。

(2)Dense_rank函数返回一个唯一的值,除非当碰到相同数据时,此时所有相同数据的排名都是一样的。

(3)Row_number函数返回一个唯一的值,当碰到相同数据时,排名按照记录集中记录的顺序依次递增。

三、过滤数据
代码块
Plain Text
select
*
from (SELECt
event,
pt,
sv,
dm,
time,
PERCENTILE_APPROX(time, 0.90) OVER (PARTITION by event,pt,sv,dm) time_percent
FROM
log.xm_sdk_log
WHERe
dt = ‘20160427’
AND
time IS NOT NULL)tmp
where time > time_percent

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/630119.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号