题库91-105_大数据系统

题库91-105

单选

在Hadoop生态组件中，哪个产品可用于复杂的批量数据处理？
A.MapReduce、Hive
B.Impala
C.Storm
D.Mahout
下面关于使用hive的描述中不正确的是？（不确定，B或者D）
A.hive中的join查询只支持等值连接，不支持非等值连接
B.hive的表一共有两种类型，内部表和外部表
C.hive默认仓库路径为/user/hive/warehouse/
D.hive支持数据删除和修改
关于Hbase下面说法正确的是？
A.Hbase是一个稀疏、多维度、排列的映射表，这张表的索引是行键、列键
B.每个值是一个未经解释的字符串，没有数据类型，程序员要自己对他进
C.用户在表中存储数据，每一行都有一个可排序的行键和任意多的列键
D.以上说法都正确
万维网之父是？
A.彼得·德鲁克
B.舍恩伯格
C.蒂姆·伯纳斯 -李
D.斯科特·布朗
BIRCH是一种？
A.分类器
B.聚类算法
C.关联分析算法
D.特征选择算法
数据挖掘算法中，下列关于聚类的说法中，错误的是？（不确定）
A.不预先设定数据归类类目，完全根据数据本身性质将数据聚合成不同类别
B.要求同类数据的内容相似度尽可能小
C.要求不同类数据的内容相似度尽可能小
D.与分类挖掘技术相似的是，都是要对数据进行分类处理
为什么DBSCAN算法难以有效处理高维数据？(不确定，在A和D之间徘徊)
A.数据的形状太复杂
B.簇的大小未知
C.噪声点过多
D.开销过大
析：DBSCAN算法优点：耐噪声，能够处理任意大小和形状的簇
ROC曲线是验证模型的常用方法，曲线约凸向哪个角，代表模型效果越理想？
A.左上角
B.右上角
C.左下角
D.右下角
贝叶斯决策是根据什么进行决策的一种方法？
A.极大似然概率
B.先验概率
C.边际概率
D.后验概率
簇评估作用有？
①确定数据集的聚类趋势
②确定正确的簇个数
③比较两个簇集，确定哪个更好
④不引用附加信息，评估聚类分析结果对数据拟合情况
A.①②
B.②③④
C.①②③
D.①②③④
存在关联规则为A→B，此规则的confidence为80%，则代表？
A.买B商品的顾客中，有80%的顾客会同时购买A
B.同时购买A,B两商品的顾客，占所有顾客的80%
C.买A商品的顾客中，有80%的顾客会同时购买B
D.两商品A,B在交易数据库中同时被购买的机率为80%
析：confidence(A→B) = count(AUB)/count(A)
对Apriori算法，下列选项中表述有误的是？
A.Apriori算法是关联分析中最常用的算法之一
B.应用Apriori算法时，需要先设定模型的最小支持度、最小置信度等阈值
C.应用Apriori算法时，输入的数据可以是连续型数据也可以是离散型数据
D.Apriori算法扫描数据库的次数依赖于最大频繁项集中项的数量
关于逻辑回归因变量和自变量的说法中，正确的是？
A.逻辑回归的因变量为数值变量
B.逻辑回归的因变量为定性变量
C.逻辑回归的自变量为定性变量
D.逻辑回归的因变量只能有两种取值
基于规则的分类器有Apriori，随机森林，还有？
A.C4.5
B.KNN
C.Naive Bayes
D.ANN
假设检验中显著性水平是？
A.推断时犯取伪错误的概率
B.推断时取伪弃真的概率
C.正确推断的概率
D.是推断的可信度

题库91-105

大数据系统相关栏目本月热门文章