题库256-270_大数据系统

题库256-270

256 Hbase中的Region是由哪个服务进程来管理的? A
A Hregionserver
B Zookeeper
C Master
D Datanode
析：RegionServer 是 Hbase 中最核心的模块，其内部管理了一系列 Region 对象，每个 Region 由多个 HStore 组成，每个 HStore 对应表中一个列族的存储。
257Kafka集群在运行期间,直接依赖于下面那些组件? C
A Hbase
B Spark
C Zookeeper
D HDFS
析：Kafka的运行依赖于Zookeeper，而Zookeeper依赖于Java运行环境。
258 Hive是基于Hadoop 的数据仓库软件,可以查询和管理PB级别的分布式数据。以下关于hive特性的描述不正确的是? D
A灵活方便的ETL
B易用易编程
C可直接访可HDFS文件以及Hbase
D仅支持mapreduce计算引擎
析：现在Hive支持的计算引擎包括MR（逐渐废弃）、Tez、Spark。
259 spark是用以下那种编程语言实现的? D
A C
B C++
C java
D scala
260 YARN中设置队列Queue 的最大使用资源里，需要配置哪个参数?D
A yarn.scheduler.capacity.root.QueueA.user-limit-actor
B yamn.scheduler.capacity.root.QueueA.minimum-user-limit-percent
Cyamn.scheduler.capacity.rootQueueA.state Dyarm.scheduler.capacity.root.QueueA.maxirnum-capacity
析：yarn.scheduler.capacity.root.default.capacity：一个百分比的值，表示占用整个集群的百分之多少比例的资源，这个queue-path下所有的capacity之和是100
yarn.scheduler.capacity.root.default.user-limit-factor：每个用户的低保百分比，比如设置为1，则表示无论有多少用户在跑任务，每个用户占用资源最低不会少于1%的资源
yarn.scheduler.capacity.root.default.maximum-capacity：弹性设置，最大时占用多少比例资源
yarn.scheduler.capacity.root.default.state：队列状态，可以是RUNNING或STOPPED
yarn.scheduler.capacity.root.default.acl_submit_applications：哪些用户或用户组可以提交人物
yarn.scheduler.capacity.root.default.acl_administer_queue：哪些用户或用户组可以管理队列
261 Hadoop 系统中关于客户端向 HDFS文件系统上传文件说法正确的是?B
A客户端的文件数据经过NameNode传递给DataNode
B客户端将文件分为多个Bock，根据DataNode的地址信息,按顺序写入每一个DataNode中
C客户端根据DataNode的地址信息，按顺序将整个文件写入每一个DataNode中，然后由DataNode将文件划分为多个Block
D客户端只上传数据到一个DataNode，然后由Namenode负责Bock复制
析：客户端要向HDFS写数据，首先跟Namenode通信以确认可以写文件并获得接收文件block的datanode(切块在客户端进行)，然后客户端按顺序将文件逐个block传递给相应datanode，并由接收到block的datanode负责向其他datanode复制block副本。默认情况下每个block都有三个副本，HDFS 数据存储单元（block）
262 Hadoop 的Hbase 不适合哪些数据类型的应用场景? A
A大文件应用场景
B海量数据应用场景
C高吞吐率应用场景
D半结构化数据应用场景
263 Hadoop 中 MapReduce 组件擅长处理哪种场景的计算任务?B
A迭代计算
B离线计算
C实时交互计算
D流式计算
264以下哪类数据不属于半结构化数据? C
A HTML
B XML
C二维表
D JSON
析：关系模型的、有基本固定结构模式的数据，例如日志文件、XML文档、JSON文档、Email等。包括邮件、HTML、报表、资源库等等
265采用Flume传输数据过程中，为了防止因Flume进程重启而丢失数据，推荐使用以下哪种channel类型? C
A Memory Channels
B File Channel
C JDBC Channel
D HDFs Channel
析：1.1 Memory Channel（内存Channels）
events存储在配置最大大小的内存队列中。对于流量较高和由于agent故障而准备丢失数据的流程来说，这是一个理想的选择。
1.2 JDBC Channel
events存储在持久化存储库中（其背后是一个数据库）。JDBC channel目前支持嵌入式Derby。这是一个持续的channel，对于可恢复性非常重要的流程来说是理想的选择。
1.3 Kafka Channel
events存储在Kafka集群中。Kafka提供高可用性和高可靠性，所以当agent或者kafka broker 崩溃时，events能马上被其他sinks可用。
266Hbase 中如果发生一个Region 的 Split，将一个HFile 文件真正分开到两个Region的过程发生在以下什么阶段? A
A Split过程中
B Flush过程中
C Compaction过程中
D HFile分开过程中
267 Hadoop 平台中 Hbase的 Region是由哪个服务进程来管理? C
A HMaster
B DataNode
C Region Server
D zookeeper
268 spark组件中哪个选项不属于transformation操作?D
A Join
B distinct
C reduceByKey
D reduce
269关于Hive与 Hadoop其他组件的关系。以下描述错误的是?
A Hive最终将数据存储在HDFs中
B Hive SQL其本质是执行MapReduce任务
C Hive是 Hadoop平台的数据仓库工具
D hive对 Hbase有强依赖
270关于Kafka磁盘容量不足的告警，对于可能的原因以下分析不正确的是?D
A用于存储Kafka数据的磁盘配置〔如磁盘数目、磁盘大小等),无法满足当前业务数据流里,导致磁盘使用率达到上限
B数据保存时间配置过长，数据累积达到磁盘使用率上限
C业务规划不合理，导致数据分配不均，使部分盘达到使用率上限
D Broker 节点故障导致
析：内存不足导致D的效果发生

题库256-270

大数据系统相关栏目本月热门文章