栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

美团数据开发准备

美团数据开发准备

  1. 数仓概念&层次结构 数据仓库,英文名称为Data Warehouse,关于数据仓库概念的标准定义业内认可度比较高的,是由数据仓库之父比尔·恩门(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立数据仓库》)一书中所提出:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。

①,数据运营层ODS:存放的是接入的原始数据。经过ETL之后装入本层,大多是按照源头业务系统的分类方式而分类的。为了考虑后续可能追溯数据为题,因此对这一层不建议做过多的数据清洗工作,原封不动接入源数据即可,至于数据的去噪,去重,异常值处理等过程可以放在后面的DW层

②,数据仓库层DW:重点设计的数据仓库中间层数据,在这里ODS层获得的数据按照主题建立各种数据模型,DW又细分
Ⅰ,数据明细层:DWD(Data WareHouse Detail)
该层一般保持和ODS层一样的数据粒度,并且提供给一定的数据质量保证。同时为了提高数据明细层的易用性,该层会采用一些维度退化手法,将维度退化到事实表中,减少事实表和维度表的关联。另外,在该层也会做一部分的数据聚合,将相同主题的数据汇集到一张表中,提高数据的可用性
Ⅱ,数据中间层:DWM(Data WareHouse Middle)
在DWD层的数据基础上,对数据做轻度的聚合操作,生成一系列的中间表提升公共指标的复用性,减少重复加工,直观来说,就是对通用的核心维度进行聚合操作,算出相应的统计指标
Ⅲ,数据服务层:DWS(Data WareHouse Service)
又称为数据集市或者宽表,按照业务划分,例如流量,订单,用户等,生成字段比较多的宽表,用于后续的业务查询,OLAP分析,数据分析等。

③,数据应用层APP:面向业务定制的应用数据
主要提供给数据铲平和数据分析使用的数据,一般会放在ES,MYSQL,Redis等系统供线上系统使用,也可以放在Hive中供数据分析和数据挖掘使用

④,维表层 Dimension
1,高基数维度数据:一般是用户资料表,商品资料表类似的资料表。数据量可能是千万级或者上亿级别
2,低基数维度数据:一般是配置表,比如枚举值对应的中文含义,或者日期维表。数据量可能是个位数或者几千几万
 

hive,HDFS有了解么?HDFS-Hadoop底层存储的方式

Hive
Hadoop使用hdfs存储数据,Hive则是把hdfs数据文件映射成数据表,通过Hive SQL操作HDFS中的数据,其中Hive将SQL语句转换成MapReduce任务进行,因此Hive实质就是一个基于 HDFS 的 MapReduce 计算框架,对存储在 HDFS 中的数据进行分析和管理
Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统(Distributed File System)。

最短路径的几种算法?

最短路径几种算法比较 - 百度文库

MapReduce和spark的shuffle过程有什么区别?

1. 从逻辑角度来讲,Shuffle 过程就是一个 GroupByKey 的过程,两者没有本质区别。

只是 MapReduce 为了方便 GroupBy 存在于不同 partition 中的 key/value records,就提前对 key 进行排序。Spark 认为很多应用不需要对 key 排序,就默认没有在 GroupBy 的过程中对 key 排序。

2. 从数据流角度讲,两者有差别。

MapReduce 只能从一个 Map Stage shuffle 数据,Spark 可以从多个 Map Stages shuffle 数据(这是 DAG 型数据流的优势,可以表达复杂的数据流操作,参见 CoGroup(), join() 等操作的数据流图

SparkInternals/4-shuffleDetails.md at master · JerryLead/SparkInternals · GitHub

)。

3. Shuffle write/read 实现上有一些区别。

以前对 shuffle write/read 的分类是 sort-based 和 hash-based。MapReduce 可以说是 sort-based,shuffle write 和 shuffle read 过程都是基于key sorting 的 (buffering records + in-memory sort + on-disk external sorting)。早期的 Spark 是 hash-based,shuffle write 和 shuffle read 都使用 HashMap-like 的数据结构进行 aggregate (without key sorting)。但目前的 Spark 是两者的结合体,shuffle write 可以是 sort-based (only sort partition id, without key sorting),shuffle read 阶段可以是 hash-based。因此,目前 sort-based 和 hash-based 已经“你中有我,我中有你”,界限已经不那么清晰。

4. 从数据 fetch 与数据计算的重叠粒度来讲,两者有细微区别。

MapReduce 是粗粒度,reducer fetch 到的 records 先被放到 shuffle buffer 中休息,当 shuffle buffer 快满时,才对它们进行 combine()。而 Spark 是细粒度,可以即时将 fetch 到的 record 与 HashMap 中相同 key 的 record 进行 aggregate。

5. 从性能优化角度来讲,Spark考虑的更全面。

spark的宽依赖和窄依赖的划分?其中哪一个会发生shuffle?

1.窄依赖
父RDD一个分区中的数据,交给子RDD一个分区来处理。
2.宽依赖
父RDD一个分区中的数据,交给子RDD多个分区来处理。
如何辨别宽依赖和窄依赖?
一般来说,发生shuffle的操作都属于宽依赖。比如:sortBy()、reduceByKey()、groupByKey()、join()和调用rePartition()函数的任何操作。
 

hive数据倾斜遇到过么?如何解决?

1、什么是数据倾斜?

由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点

2、主要表现:任务进度长时间维持在 99%或者 100%的附近,查看任务监控页面,发现只有少量 reduce子任务未完成,因为其处理的数据量和其他的 reduce 差异过大。单一 reduce 处理的记录数和平均记录数相差太大,通常达到好几倍之多,最长时间远大于平均时长。

3、容易数据倾斜情况

 hive数据倾斜原因和解决方法 - 技术后半生 - 博客园

 

RDD是什么?中文如何表述?

RDD 是 Spark 提供的最重要的抽象概念,它是一种有容错机制的特殊数据集合,可以分布在集群的结点上,以函数式操作集合的方式进行各种并行操作。

通俗点来讲,可以将 RDD 理解为一个分布式对象集合,本质上是一个只读的分区记录集合。每个 RDD 可以分成多个分区,每个分区就是一个数据集片段。一个 RDD 的不同分区可以保存到集群中的不同结点上,从而可以在集群中的不同结点上进行并行计算。

RDD 具有容错机制,并且只读不能修改,可以执行确定的转换操作创建新的 RDD。具体来讲,RDD 具有以下几个属性。

只读:不能修改,只能通过转换操作生成新的 RDD。
分布式:可以分布在多台机器上进行并行处理。
弹性:计算过程中内存不够时它会和磁盘进行数据交换。
基于内存:可以全部或部分缓存在内存中,在多次计算间重用。
 

  1. 数仓分层&每一层作用&数据粒度

  2. 数仓会用到什么存储方式?
  3. 数仓建模有哪些方式?有维度表和事实表一定是维度建模吗?
  4. 维度表和事实表的区别?
  5. hadoop和spark 的区别?
  6. hadoop有哪些可用引擎?
  7. 星型模型 vs 雪花模型
  8. group by/ distribute by / cluster by / sort by的区别
  9. hashmap
  10. jvm结构
  11. 封装、继承、多态
  12. url输入到浏览器发生的事
  13. http请求如何被服务器接收
  14. tcp如何保证可靠传输
  15. udp的应用场景
  16. 介绍栈和堆的区别?那么栈和堆在实际中主要解决什么问题呢?
  17. 数据库三大范式?
  18. 数据库设计三大范式和五大约束 - 周国伟 - 博客园
  19. TCP与UDP 三次握手 http与https ssl连接等基础知识
  20. HashMap扩容机制、底层数据结构
  21. 数据库索引、b+树和b树的区别
  22. 索引对读写都好吗
  23. 垃圾回收器(CMS和G1)介绍,分别在哪些代
  24. 操作系统死锁产生的必要条件
  25. MR流程、shuffer流程
  26. Spark概念
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/583430.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号