单选
- 在Hadoop生态组件中,哪个产品可用于复杂的批量数据处理?
A.MapReduce、Hive
B.Impala
C.Storm
D.Mahout - 下面关于使用hive的描述中不正确的是?(不确定,B或者D)
A.hive中的join查询只支持等值连接,不支持非等值连接
B.hive的表一共有两种类型,内部表和外部表
C.hive默认仓库路径为/user/hive/warehouse/
D.hive支持数据删除和修改 - 关于Hbase下面说法正确的是?
A.Hbase是一个稀疏、多维度、排列的映射表,这张表的索引是行键、列键
B.每个值是一个未经解释的字符串,没有数据类型,程序员要自己对他进
C.用户在表中存储数据,每一行都有一个可排序的行键和任意多的列键
D.以上说法都正确 - 万维网之父是?
A.彼得·德鲁克
B.舍恩伯格
C.蒂姆·伯纳斯 -李
D.斯科特·布朗 - BIRCH是一种?
A.分类器
B.聚类算法
C.关联分析算法
D.特征选择算法 - 数据挖掘算法中,下列关于聚类的说法中,错误的是?(不确定)
A.不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别
B.要求同类数据的内容相似度尽可能小
C.要求不同类数据的内容相似度尽可能小
D.与分类挖掘技术相似的是,都是要对数据进行分类处理 - 为什么DBSCAN算法难以有效处理高维数据?(不确定,在A和D之间徘徊)
A.数据的形状太复杂
B.簇的大小未知
C.噪声点过多
D.开销过大
析:DBSCAN算法优点:耐噪声,能够处理任意大小和形状的簇 - ROC曲线是验证模型的常用方法,曲线约凸向哪个角,代表模型效果越理想?
A.左上角
B.右上角
C.左下角
D.右下角 - 贝叶斯决策是根据什么进行决策的一种方法?
A.极大似然概率
B.先验概率
C.边际概率
D.后验概率 - 簇评估作用有?
①确定数据集的聚类趋势
②确定正确的簇个数
③比较两个簇集,确定哪个更好
④不引用附加信息,评估聚类分析结果对数据拟合情况
A.①②
B.②③④
C.①②③
D.①②③④ - 存在关联规则为A→B,此规则的confidence为80%,则代表?
A.买B商品的顾客中,有80%的顾客会同时购买A
B.同时购买A,B两商品的顾客,占所有顾客的80%
C.买A商品的顾客中,有80%的顾客会同时购买B
D.两商品A,B在交易数据库中同时被购买的机率为80%
析:confidence(A→B) = count(AUB)/count(A) - 对Apriori算法,下列选项中表述有误的是?
A.Apriori算法是关联分析中最常用的算法之一
B.应用Apriori算法时,需要先设定模型的最小支持度、最小置信度等阈值
C.应用Apriori算法时,输入的数据可以是连续型数据也可以是离散型数据
D.Apriori算法扫描数据库的次数依赖于最大频繁项集中项的数量 - 关于逻辑回归因变量和自变量的说法中,正确的是?
A.逻辑回归的因变量为数值变量
B.逻辑回归的因变量为定性变量
C.逻辑回归的自变量为定性变量
D.逻辑回归的因变量只能有两种取值 - 基于规则的分类器有Apriori,随机森林,还有?
A.C4.5
B.KNN
C.Naive Bayes
D.ANN - 假设检验中显著性水平是?
A.推断时犯取伪错误的概率
B.推断时取伪弃真的概率
C.正确推断的概率
D.是推断的可信度



