Hive 分析函数

 2023-09-06 阅读 17 评论 0

摘要:本文首发于:大数据每日哔哔-Hive 分析函数 应用场景 (1)用于分区排序(2)Top N(3)层次查询 常用分析函数 分析函数描述RANK返回数据项在分区中的排名。排名值序列可能会有间隔DENSE_RANK返回数据项在分区中的排名。排名值序列

本文首发于:大数据每日哔哔-Hive 分析函数

应用场景

(1)用于分区排序
(2)Top N
(3)层次查询

常用分析函数

分析函数描述
RANK返回数据项在分区中的排名。排名值序列可能会有间隔
DENSE_RANK返回数据项在分区中的排名。排名值序列是连续的,没有间隔
PERCENT_RANK计算当前行的百分比排名:(x - 1)/(窗口分区中的行数 - 1)
CUME_DIST统计小于或等于当前值的行数占总行数的比例:
x/分区行数
ROW_NUMBER确认分区中当前行的序号
NTILE将每个分区的行尽可能均匀地划分为指定数量的分组

语法:analytics_functions over() clause

准备了一个表,用于测试:

create table test.gid_pv(gid string comment '商品ID'
,dt string comment '日期'
,pv string comment '访问次数'
) comment '商品访问次数'
row format delimitedfields terminated by ','collection items terminated by '\n'
stored as textfile
;

数据如下:

0006D2BC-4DF9-4C0B-83AD-0183789E78D4	2020-01-10	1
0006D2BC-4DF9-4C0B-83AD-0183789E78D4	2020-01-11	5
0006D2BC-4DF9-4C0B-83AD-0183789E78D4	2020-01-12	7
0006D2BC-4DF9-4C0B-83AD-0183789E78D4	2020-01-13	3
0006D2BC-4DF9-4C0B-83AD-0183789E78D4	2020-01-14	2
0006D2BC-4DF9-4C0B-83AD-0183789E78D4	2020-01-15	4
0006D2BC-4DF9-4C0B-83AD-0183789E78D4	2020-01-16	4
993BD7AD-3B62-BA0C-15AE-A14B85921889	2020-01-10	2
993BD7AD-3B62-BA0C-15AE-A14B85921889	2020-01-11	9
993BD7AD-3B62-BA0C-15AE-A14B85921889	2020-01-12	3
993BD7AD-3B62-BA0C-15AE-A14B85921889	2020-01-13	1
993BD7AD-3B62-BA0C-15AE-A14B85921889	2020-01-14	1
993BD7AD-3B62-BA0C-15AE-A14B85921889	2020-01-15	8
993BD7AD-3B62-BA0C-15AE-A14B85921889	2020-01-16	2

RANK函数会返回数据项在分区中的排名。OVER子句中的ORDER BY语句来确定根据哪个值进行排名。如果多行中的排序值相同,则会有相同的排名。如果有排名相同的情况下,则会在名次中留下空位。例如,如果两行排名为3,则下一个排名为5。DENSE_RANK()不会出现这种情况,具体可以对比一下

select gid
,dt
,pv
,rank() over (partition by gid order by pv desc) as pre_total_pv_rank
,dense_rank() over (partition by gid order by pv desc) as pre_total_pv_dense_rank 
from test.gid_pv 
order by gid
,dt
;

image.png
image.png

上面的两个是排序函数,如果只想给当前行编个号呢?

select gid
,dt
,pv
,row_number() over (partition by gid order by pv) as pre_total_pv_row_number
from test.gid_pv 
order by gid
,dt
;

image.png

CUME_DIST函数计算分区中当前行的相对排名:(前面的行数)/(分区中的总行数)
如果有相等值的行(取决于OVER子句中的order by):(前面的行数+相等值行数)/(分区中的总行数)

一般默认升序即可。

select gid
,dt
,pv
-- (前面的行数)/(分区中的总行数),如果有相等值的行:(前面的行数+相等值行数)/(分区中的总行数)
,cume_dist() over (partition by gid order by pv) as pre_total_pv_cume_dist
from test.gid_pv 
order by gid
,dt
;

结果数据:
image.png
image.png
如果想把某个分组内分成比较均匀的几份,可以使用 ntile 函数:(比如想要统计消费金额前 50%的用户的平均消费,可以按照消费金额排序,分成 2 份。)

select gid
,dt
,pv
,ntile(4) over (partition by gid order by pv) as pre_total_pv_ntile
from test.gid_pv 
order by gid
,dt
;

结果如下:
image.png
image.png

参考

https://blog.csdn.net/SunnyYoona/article/details/56488568
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+WindowingAndAnalytics
https://jordenbruce.com/2019/12/09/hql-function-analytic/

订阅

扫码_搜索联合传播样式-标准色版.png

版权声明:本站所有资料均为网友推荐收集整理而来,仅供学习和研究交流使用。

原文链接:https://hbdhgg.com/3/10088.html

发表评论:

本站为非赢利网站,部分文章来源或改编自互联网及其他公众平台,主要目的在于分享信息,版权归原作者所有,内容仅供读者参考,如有侵权请联系我们删除!

Copyright © 2022 匯編語言學習筆記 Inc. 保留所有权利。

底部版权信息