美团数据开发准备

数仓概念&层次结构数据仓库，英文名称为Data Warehouse，关于数据仓库概念的标准定义业内认可度比较高的，是由数据仓库之父比尔·恩门（Bill Inmon）在1991年出版的“Building the Data Warehouse”（《建立数据仓库》）一书中所提出：数据仓库（Data Warehouse）是一个面向主题的（Subject Oriented）、集成的（Integrated）、相对稳定的（Non-Volatile）、反映历史变化（Time Variant）的数据集合，用于支持管理决策(Decision Making Support)。

①，数据运营层ODS：存放的是接入的原始数据。经过ETL之后装入本层，大多是按照源头业务系统的分类方式而分类的。为了考虑后续可能追溯数据为题，因此对这一层不建议做过多的数据清洗工作，原封不动接入源数据即可，至于数据的去噪，去重，异常值处理等过程可以放在后面的DW层

②，数据仓库层DW：重点设计的数据仓库中间层数据，在这里ODS层获得的数据按照主题建立各种数据模型，DW又细分
Ⅰ，数据明细层：DWD(Data WareHouse Detail)
该层一般保持和ODS层一样的数据粒度，并且提供给一定的数据质量保证。同时为了提高数据明细层的易用性，该层会采用一些维度退化手法，将维度退化到事实表中，减少事实表和维度表的关联。另外，在该层也会做一部分的数据聚合，将相同主题的数据汇集到一张表中，提高数据的可用性
Ⅱ，数据中间层：DWM（Data WareHouse Middle）
在DWD层的数据基础上，对数据做轻度的聚合操作，生成一系列的中间表提升公共指标的复用性，减少重复加工，直观来说，就是对通用的核心维度进行聚合操作，算出相应的统计指标
Ⅲ，数据服务层：DWS(Data WareHouse Service)
又称为数据集市或者宽表，按照业务划分，例如流量，订单，用户等，生成字段比较多的宽表，用于后续的业务查询，OLAP分析，数据分析等。

③，数据应用层APP：面向业务定制的应用数据
主要提供给数据铲平和数据分析使用的数据，一般会放在ES，MYSQL，Redis等系统供线上系统使用，也可以放在Hive中供数据分析和数据挖掘使用

④，维表层 Dimension
1，高基数维度数据：一般是用户资料表，商品资料表类似的资料表。数据量可能是千万级或者上亿级别
2，低基数维度数据：一般是配置表，比如枚举值对应的中文含义，或者日期维表。数据量可能是个位数或者几千几万

hive，HDFS有了解么？HDFS-Hadoop底层存储的方式

Hive
Hadoop使用hdfs存储数据，Hive则是把hdfs数据文件映射成数据表，通过Hive SQL操作HDFS中的数据，其中Hive将SQL语句转换成MapReduce任务进行，因此Hive实质就是一个基于 HDFS 的 MapReduce 计算框架，对存储在 HDFS 中的数据进行分析和管理
Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统（Distributed File System）。

最短路径的几种算法？

最短路径几种算法比较 - 百度文库

MapReduce和spark的shuffle过程有什么区别？

1. 从逻辑角度来讲，Shuffle 过程就是一个 GroupByKey 的过程，两者没有本质区别。

只是 MapReduce 为了方便 GroupBy 存在于不同 partition 中的 key/value records，就提前对 key 进行排序。Spark 认为很多应用不需要对 key 排序，就默认没有在 GroupBy 的过程中对 key 排序。

2. 从数据流角度讲，两者有差别。

MapReduce 只能从一个 Map Stage shuffle 数据，Spark 可以从多个 Map Stages shuffle 数据（这是 DAG 型数据流的优势，可以表达复杂的数据流操作，参见 CoGroup(), join() 等操作的数据流图

SparkInternals/4-shuffleDetails.md at master · JerryLead/SparkInternals · GitHub

）。

3. Shuffle write/read 实现上有一些区别。

以前对 shuffle write/read 的分类是 sort-based 和 hash-based。MapReduce 可以说是 sort-based，shuffle write 和 shuffle read 过程都是基于key sorting 的 (buffering records + in-memory sort + on-disk external sorting)。早期的 Spark 是 hash-based，shuffle write 和 shuffle read 都使用 HashMap-like 的数据结构进行 aggregate (without key sorting)。但目前的 Spark 是两者的结合体，shuffle write 可以是 sort-based (only sort partition id, without key sorting)，shuffle read 阶段可以是 hash-based。因此，目前 sort-based 和 hash-based 已经“你中有我，我中有你”，界限已经不那么清晰。

4. 从数据 fetch 与数据计算的重叠粒度来讲，两者有细微区别。

MapReduce 是粗粒度，reducer fetch 到的 records 先被放到 shuffle buffer 中休息，当 shuffle buffer 快满时，才对它们进行 combine()。而 Spark 是细粒度，可以即时将 fetch 到的 record 与 HashMap 中相同 key 的 record 进行 aggregate。

5. 从性能优化角度来讲，Spark考虑的更全面。

spark的宽依赖和窄依赖的划分？其中哪一个会发生shuffle？

1.窄依赖
父RDD一个分区中的数据，交给子RDD一个分区来处理。
2.宽依赖
父RDD一个分区中的数据，交给子RDD多个分区来处理。
如何辨别宽依赖和窄依赖？
一般来说，发生shuffle的操作都属于宽依赖。比如：sortBy()、reduceByKey()、groupByKey()、join()和调用rePartition()函数的任何操作。

hive数据倾斜遇到过么？如何解决？

1、什么是数据倾斜？

由于数据分布不均匀，造成数据大量的集中到一点，造成数据热点

2、主要表现：任务进度长时间维持在 99%或者 100%的附近，查看任务监控页面，发现只有少量 reduce子任务未完成，因为其处理的数据量和其他的 reduce 差异过大。单一 reduce 处理的记录数和平均记录数相差太大，通常达到好几倍之多，最长时间远大于平均时长。

3、容易数据倾斜情况

hive数据倾斜原因和解决方法 - 技术后半生 - 博客园

RDD是什么？中文如何表述？

RDD 是 Spark 提供的最重要的抽象概念，它是一种有容错机制的特殊数据集合，可以分布在集群的结点上，以函数式操作集合的方式进行各种并行操作。

通俗点来讲，可以将 RDD 理解为一个分布式对象集合，本质上是一个只读的分区记录集合。每个 RDD 可以分成多个分区，每个分区就是一个数据集片段。一个 RDD 的不同分区可以保存到集群中的不同结点上，从而可以在集群中的不同结点上进行并行计算。

RDD 具有容错机制，并且只读不能修改，可以执行确定的转换操作创建新的 RDD。具体来讲，RDD 具有以下几个属性。

只读：不能修改，只能通过转换操作生成新的 RDD。
分布式：可以分布在多台机器上进行并行处理。
弹性：计算过程中内存不够时它会和磁盘进行数据交换。
基于内存：可以全部或部分缓存在内存中，在多次计算间重用。

数仓分层&每一层作用&数据粒度
数仓会用到什么存储方式？
数仓建模有哪些方式？有维度表和事实表一定是维度建模吗？
维度表和事实表的区别？
hadoop和spark 的区别？
hadoop有哪些可用引擎？
星型模型 vs 雪花模型
group by/ distribute by / cluster by / sort by的区别
hashmap
jvm结构
封装、继承、多态
url输入到浏览器发生的事
http请求如何被服务器接收
tcp如何保证可靠传输
udp的应用场景
介绍栈和堆的区别？那么栈和堆在实际中主要解决什么问题呢？
数据库三大范式？
数据库设计三大范式和五大约束 - 周国伟 - 博客园
TCP与UDP 三次握手 http与https ssl连接等基础知识
HashMap扩容机制、底层数据结构
数据库索引、b+树和b树的区别
索引对读写都好吗
垃圾回收器（CMS和G1）介绍，分别在哪些代
操作系统死锁产生的必要条件
MR流程、shuffer流程
Spark概念

美团数据开发准备

大数据系统相关栏目本月热门文章