一.数据倾斜;
概念说明:
在大数据处理环境下,数据处理过程出现明显的倾斜现象,导致任务整体迟迟不能完全结束
特点特征:
典型的木桶原理.运行的时间往往取绝于最后一个task运行完成的时间
应用场景:
分为真倾斜和假倾斜
假倾斜:
实际数据并没有倾斜,只是由于人为的原因导致的倾斜
例如:数据格式设置的不正确
sql编写不合理
解决办法:实现代码优化即可
真倾斜:
实际数据本身就客观的存在的倾斜情况
例如:vip用户倒卖的情况,导致vip账号的数据量特别大
解决办法:将正常数据,和倾斜的数据分开处理
硬件机器本身配置不均衡导致的计算能力倾斜问题。
解决办法:更换硬件
二.二次排序的问题:
概念说明:
在map到reduce的处理过程当中,按照2个字段进行升序排列,而不是像默认的一次排序那样,只按照key一个字段排序
特点特征:
两个字段排序,如果第一个字段不相等就按照第一个字段排序,如果 第一个字段想等的话就按照第二个字段排序
应用场景:
当单个字段不满足排序的需求时采用二次排序
代码实现:
select * from table order by c1,c2;
三.请介绍一下zookeeper是什么?
概念说明:
是分布式环境下第三方服务,帮助分布式系统,比如 计算,调度,存储等
特征特点:
简单,易使用,高效
应用场景:
分布式环境下命名一致性的问题
分布式环境下的高可用问题
代码实现:
底层是多叉树.
面向zookeeper编程
三.排序的时间复杂度
冒泡排序的时间复杂度:O(N*N)
选择排序:O(N*N)
快速排序:O(N*log2n)
四.事务的四大特性



