题库901-915_大数据系统

题库901-915

在Flink 中, checkpoint机制能明在运行过程中出现失败时,从某一个检查点恢复,在此过程中,流快照是根据数据流入依次创建的。对
Flume的数据流可以根据 headers的信息发送到不同的 channel 中。对
Spark任务的每个stage可划分为job，划分的标记是shuffle。错
析：每个Job是有一个或者多个Stage构成
如果YARN集群中只有Default、QueueA和QueueB子队列，那么允许将他们的容量分别设置为60%、25%和22%。错
Kafka是一个分布式的消息发布订阅系统，它只是进行消息的转发，并不会保存消息。对
Hadoop的NameNode用于存储文件系统的元数据。对
Hadoop 系统中，如果文件系统的备份因子是3，那么每次MapReduce任务运行的 task所需要的文件都要从3个有副本的机器上传输需要处理的文件。错
HDFS 的Client 写入文件时，数据的第一副本写入位置是由NameNode确定，其他副本的写入位置由DataNode确定。错
析：都是namenode决定的
RDD可以从Hadoop兼容的文件系统生成，生成之后可以通过调用RDD的算子对RDD的数据进行部分更新。对
HDFS支持大文件存储，同时支持多个用户对同一个文件的写操作，以及在文件任意位置进行修改。错
析：不支持多用户对一个文件同时写入及任意修改文件只有一个写入者,只能执行追加操作。
Spark是基于内存的计算，所有Spark程序运行过程中的数据只能存储在内存中。错
析：Spark优先把数据放到内存中,如果内存放不下,就会放到磁盘里面,程序进行自动的存储切换。
Spark应用运行时，如果某个task 运行失败则导致整个app运行失败。错
Flume传输数据过程中，sink 取走数据并写入目的地后，会将event 从channe 中删除。对
HDFS 机制中NameNode负责管理元数据，Client端每次读请求都需要从NameNode的元数据磁盘中读取元数据信息以此获取所读文件在 DataNode 的位置。错
Spark on YARN模式下，没有NodeManager的节点不能启动executor执行task。对

题库901-915

大数据系统相关栏目本月热门文章