题库901-915
题库901-915
- 在Flink 中, checkpoint机制能明在运行过程中出现失败时,从某一个检查点恢复,在此过程中,流快照是根据数据流入依次创建的。对
- Flume的数据流可以根据 headers的信息发送到不同的 channel 中。对
- Spark任务的每个stage可划分为job,划分的标记是shuffle。错
析:每个Job是有一个或者多个Stage构成 - 如果YARN集群中只有Default、QueueA和QueueB子队列,那么允许将他们的容量分别设置为60%、25%和22%。错
- Kafka是一个分布式的消息发布订阅系统,它只是进行消息的转发,并不会保存消息。对
- Hadoop的NameNode用于存储文件系统的元数据。对
- Hadoop 系统中,如果文件系统的备份因子是3,那么每次MapReduce任务运行的 task所需要的文件都要从3个有副本的机器上传输需要处理的文件。错
- HDFS 的Client 写入文件时,数据的第一副本写入位置是由NameNode确定,其他副本的写入位置由DataNode确定。错
析:都是namenode决定的 - RDD可以从Hadoop兼容的文件系统生成,生成之后可以通过调用RDD的算子对RDD的数据进行部分更新。对
- HDFS支持大文件存储,同时支持多个用户对同一个文件的写操作,以及在文件任意位置进行修改。错
析:不支持多用户对一个文件同时写入及任意修改文件 只有一个写入者,只能执行追加操作。 - Spark是基于内存的计算,所有Spark程序运行过程中的数据只能存储在内存中。错
析:Spark优先把数据放到内存中,如果内存放不下,就会放到磁盘里面,程序进行自动的存储切换。 - Spark应用运行时,如果某个task 运行失败则导致整个app运行失败。错
- Flume传输数据过程中,sink 取走数据并写入目的地后,会将event 从channe 中删除。对
- HDFS 机制中NameNode负责管理元数据,Client端每次读请求都需要从NameNode的元数据磁盘中读取元数据信息以此获取所读文件在 DataNode 的位置。错
- Spark on YARN模式下,没有NodeManager的节点不能启动executor执行task。对