栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

题库256-270

题库256-270

题库256-270

256 Hbase中的Region是由哪个服务进程来管理的? A
A Hregionserver
B Zookeeper
C Master
D Datanode
析:RegionServer 是 Hbase 中最核心的模块,其内部管理了一系列 Region 对象,每个 Region 由多个 HStore 组成,每个 HStore 对应表中一个列族的存储。
257Kafka集群在运行期间,直接依赖于下面那些组件? C
A Hbase
B Spark
C Zookeeper
D HDFS
析:Kafka的运行依赖于Zookeeper,而Zookeeper依赖于Java运行环境。
258 Hive是基于Hadoop 的数据仓库软件,可以查询和管理PB级别的分布式数据。以下关于hive特性的描述不正确的是? D
A灵活方便的ETL
B易用易编程
C可直接访可HDFS文件以及Hbase
D仅支持mapreduce计算引擎
析:现在Hive支持的计算引擎包括MR(逐渐废弃)、Tez、Spark。
259 spark是用以下那种编程语言实现的? D
A C
B C++
C java
D scala
260 YARN中设置队列Queue 的最大使用资源里,需要配置哪个参数?D
A yarn.scheduler.capacity.root.QueueA.user-limit-actor
B yamn.scheduler.capacity.root.QueueA.minimum-user-limit-percent
Cyamn.scheduler.capacity.rootQueueA.state Dyarm.scheduler.capacity.root.QueueA.maxirnum-capacity
析:yarn.scheduler.capacity.root.default.capacity:一个百分比的值,表示占用整个集群的百分之多少比例的资源,这个queue-path下所有的capacity之和是100
yarn.scheduler.capacity.root.default.user-limit-factor:每个用户的低保百分比,比如设置为1,则表示无论有多少用户在跑任务,每个用户占用资源最低不会少于1%的资源
yarn.scheduler.capacity.root.default.maximum-capacity:弹性设置,最大时占用多少比例资源
yarn.scheduler.capacity.root.default.state:队列状态,可以是RUNNING或STOPPED
yarn.scheduler.capacity.root.default.acl_submit_applications:哪些用户或用户组可以提交人物
yarn.scheduler.capacity.root.default.acl_administer_queue:哪些用户或用户组可以管理队列
261 Hadoop 系统中关于客户端向 HDFS文件系统上传文件说法正确的是?B
A客户端的文件数据经过NameNode传递给DataNode
B客户端将文件分为多个Bock,根据DataNode的地址信息,按顺序写入每一个DataNode中
C客户端根据DataNode的地址信息,按顺序将整个文件写入每一个DataNode中,然后由DataNode将文件划分为多个Block
D客户端只上传数据到一个DataNode,然后由Namenode负责Bock复制
析:客户端要向HDFS写数据,首先跟Namenode通信以确认可以写文件并获得接收文件block的datanode(切块在客户端进行),然后客户端按顺序将文件逐个block传递给相应datanode,并由接收到block的datanode负责向其他datanode复制block副本。默认情况下每个block都有三个副本,HDFS 数据存储单元(block)
262 Hadoop 的Hbase 不适合哪些数据类型的应用场景? A
A大文件应用场景
B海量数据应用场景
C高吞吐率应用场景
D半结构化数据应用场景
263 Hadoop 中 MapReduce 组件擅长处理哪种场景的计算任务?B
A迭代计算
B离线计算
C实时交互计算
D流式计算
264以下哪类数据不属于半结构化数据? C
A HTML
B XML
C二维表
D JSON
析:关系模型的、有基本固定结构模式的数据,例如日志文件、XML文档、JSON文档、Email等。 包括邮件、HTML、报表、资源库等等
265采用Flume传输数据过程中,为了防止因Flume进程重启而丢失数据,推荐使用以下哪种channel类型? C
A Memory Channels
B File Channel
C JDBC Channel
D HDFs Channel
析:1.1 Memory Channel(内存Channels)
events存储在配置最大大小的内存队列中。对于流量较高和由于agent故障而准备丢失数据的流程来说,这是一个理想的选择。
1.2 JDBC Channel
events存储在持久化存储库中(其背后是一个数据库)。JDBC channel目前支持嵌入式Derby。这是一个持续的channel,对于可恢复性非常重要的流程来说是理想的选择。
1.3 Kafka Channel
events存储在Kafka集群中。Kafka提供高可用性和高可靠性,所以当agent或者kafka broker 崩溃时,events能马上被其他sinks可用。
266Hbase 中如果发生一个Region 的 Split,将一个HFile 文件真正分开到两个Region的过程发生在以下什么阶段? A
A Split过程中
B Flush过程中
C Compaction过程中
D HFile分开过程中
267 Hadoop 平台中 Hbase的 Region是由哪个服务进程来管理? C
A HMaster
B DataNode
C Region Server
D zookeeper
268 spark组件中哪个选项不属于transformation操作?D
A Join
B distinct
C reduceByKey
D reduce
269关于Hive与 Hadoop其他组件的关系。以下描述错误的是?
A Hive最终将数据存储在HDFs中
B Hive SQL其本质是执行MapReduce任务
C Hive是 Hadoop平台的数据仓库工具
D hive对 Hbase有强依赖
270关于Kafka磁盘容量不足的告警,对于可能的原因以下分析不正确的是?D
A用于存储Kafka数据的磁盘配置〔如磁盘数目、磁盘大小等),无法满足当前业务数据流里,导致磁盘使用率达到上限
B数据保存时间配置过长,数据累积达到磁盘使用率上限
C业务规划不合理,导致数据分配不均,使部分盘达到使用率上限
D Broker 节点故障导致
析:内存不足导致D的效果发生

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/308230.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号