一.数据分析函数习题回顾:
sql执行顺序:order 分析函数: 1.row_number:排名,值都为唯一,例如:1,2,3,4,5...。 不关心是否有相等情况 2.rank:关心有相等情况,如有相等值,留空位,例如:1,2,2,4,4,6,7,8..... 3.dense_rank: 用于排序,关心相等情况,如遇到相等情况,名次不会留下空位。如1,2,2,3,3,4...... 窗口函数: LAG:函数LAG(col,n,DEFAULT)用于统计窗口内往上第n行值。 第一个参数为列名,第二个参数为往上第n行(可选,默认为1),第三个参数为默认值(当往上第n行为NULL时候,取默认值,如不指定,则为NULL) LEAD:与LAG作用相反,函数形式如LEAD(col,n,DEFAULT) 用于统计窗口内往下第n行值。第一个参数为列名,第二个参数为往下第n行(可选,默认为1),第三个参数为默认值(当往下第n行为NULL时候,取默认值,如不指定,则为NULL) over()从句: 二丶APP热点标签项目 数据开发项目的标准流程 项目背景-需求说明 需求分析 技术方案和排期表 开发细节和风险控制 测试、Bug修复、调优 正式上线-用户可以正式使用 项目总结 主要思路 通过hive命令将数据加载到数据仓库中 使用hql+udf/udaf/udtf完成统计分析 将统计分析结果插入到hive中自建的新表中 主要考点 数据仓库的目录结构和开发规范 hive及hiveSQL常用命令 系统函数+udf/udaf/udtf使用 hive常见问题的解决



