题库136-150_大数据系统

题库136-150

单选

以下不属于分类模型评估中基于比例维度的指标是？（不会）
A.KS值
B.特异性
C.Kappa统计量
D.Lift值
分类模型评估指标呈现中，表示用了模型跟不用模型之间的差异的曲线叫做？
A.ROC曲线
B.Lift曲线
C.KS曲线
D.捕获率曲线
析： Lift =[TP/(TP+FP)] / [(TP+FN)/(TP+FP+FN+TN)] = Precision / Accuracy，它衡量的是，与不利用模型相比，模型的预测能力“变好”了多少，lift(提升指数)越大，模型的运行效果越好。Lift图分累积的和非累积的。
如果我们现有一个安装2.6.5版本的Hadoop集群，在不修改默认配置的情况下存储200个每个200M的文本文件，请问最终会在集群中产生多少个数据块（包括副本）？
A.200
B.40000
C.400
D.1200
析：hadoop2.x数据块大小是128mb，dfs.replication默认是3。其中200个200m会按照128m的数据块大小进行分割分散存储，就是（200 * 2），再乘以3份，就是 400 * 3 = 1200.
以下关于hive操作描述不正确的是？
A.Hive是一个建立在Hadoop文件系统上的数据仓库架构，可以用其对HDFS上
B.Hive依赖于MapReduce处理数据
C.Hive加载数据的时候，可以用local进行装饰，表示从某个本地目录下加载数据
D.Hive一般可以用于实时的查询分析
析：hive无法做到实时查询，需要一段时间才能返回结果。
倒传递神经网络（BP神经网络）的训练顺序是什么？（1：调整权重；2：计算误差值；3：利用随机的权重产生输出的结果）
A.231
B.312
C.213
D.321
DBSCAN算法的过程是？
①删除噪声点
②每组连通的核心点形成一个簇
③将所有点标记为核心点、边界点和噪声点
④将每个边界点指派到一个与之关联的核心点的的簇中
⑤为距离在Eps之内的所有核心点之间赋予一条边
A.①②④⑤③
B.③①⑤②④
C.③①②④⑤
D.①④⑤②③
关于数据挖掘的方法论CRISP-DM说法正确是？
A.这是SPSS公司，Daimler Chrysler提出的数据挖掘流程
B.主要分为六步，业务理解，数据理解，数据准备，模型搭建，模型评估与模型发布
C.该方法论已经成功地在SAS EM中进行了实施
D.这六个过程有严格的前后顺序，分析过程中不能逆转或者跳转
析：顺序可变可不变
人工神经网络（ANN）是基于模仿大脑神经网络结构和功能而建立的一种信息处理系统，下列选项中，有关神经网络的描述不正确的是？
A.神经网络对训练数据中的噪声非常鲁棒
B.可以处理冗余特征
C.训练ANN是一个很耗时的过程
D.至少含有一个隐藏层的多层神经网络
为什么要在神经网络中计算误差值？
A.调整输入值
B.调整隐藏层个数
C.调整权重
D.调整真实值
下列选项中，哪个是对分析器效果验证指标中准确率的正确表述？
A.预测为正的数据在总数据中的比例
B.预测正确的数据在总数剧中的比例
C.预测为正的数据中实际为正的数据所占比例
D实际为正的数据中被预测为正的数据所占比例.
下列有关C4.5算法中的说法中不正确的是？
A.每个结点的分支度只能为2
B.使用gain ratio作为节点分隔的依据
C.可以处理数值形态的字段
D.可以处理空值的字段
以下对最近邻分类算法（KNN）的说法错误的是？
A.它使用具体的训练实例进行预测，不必维护源自数据的模型
B.分类一个测试样例开销很大
C.最近邻分类器基于全局信息进行预测
D.可以产生任意形状的决策边界
以下有关聚类算法中K-Means和DBSCAN说法错误的是？
A.K均值会丢弃被他识别为噪声的对象，而DBSCAN一般聚类所有对象
B.K均值使用簇的基于原型的概念，而DBSCAN使用基于密度的概念
C.K均值很难处理非球形的簇，DBSCAN可以处理不同大小和不同形状的簇
D.K均值可以发现不是明显分离的簇，即使簇有重叠也可以发现，但是DBSCAN会合并有重叠的簇。
以下有关主成分分词，正确的是？
A.保留多少个主成分取决于累计方差在方差总和中所占百分比
B.一般选择50%以上
C.选前两个就可以
D.选择的数目和变量的个数一致
在ID3算法中信息增益是指？
A.信息的溢出程度
B.信息的增加效益
C.熵增加的程度最大
D.熵减少的程度最大

题库136-150

大数据系统相关栏目本月热门文章