单选
- 以下不属于分类模型评估中基于比例维度的指标是?(不会)
A.KS值
B.特异性
C.Kappa统计量
D.Lift值 - 分类模型评估指标呈现中,表示用了模型跟不用模型之间的差异的曲线叫做?
A.ROC曲线
B.Lift曲线
C.KS曲线
D.捕获率曲线
析: Lift =[TP/(TP+FP)] / [(TP+FN)/(TP+FP+FN+TN)] = Precision / Accuracy,它衡量的是,与不利用模型相比,模型的预测能力“变好”了多少,lift(提升指数)越大,模型的运行效果越好。Lift图分累积的和非累积的。 - 如果我们现有一个安装2.6.5版本的Hadoop集群,在不修改默认配置的情况下存储200个每个200M的文本文件,请问最终会在集群中产生多少个数据块(包括副本)?
A.200
B.40000
C.400
D.1200
析:hadoop2.x数据块大小是128mb,dfs.replication默认是3。 其中200个200m会按照128m的数据块大小进行分割分散存储,就是(200 * 2),再乘以3份,就是 400 * 3 = 1200. - 以下关于hive操作描述不正确的是?
A.Hive是一个建立在Hadoop文件系统上的数据仓库架构,可以用其对HDFS上
B.Hive依赖于MapReduce处理数据
C.Hive加载数据的时候,可以用local进行装饰,表示从某个本地目录下加载数据
D.Hive一般可以用于实时的查询分析
析:hive无法做到实时查询,需要一段时间才能返回结果。 - 倒传递神经网络(BP神经网络)的训练顺序是什么?(1:调整权重;2:计算误差值;3:利用随机的权重产生输出的结果)
A.231
B.312
C.213
D.321 - DBSCAN算法的过程是?
①删除噪声点
②每组连通的核心点形成一个簇
③将所有点标记为核心点、边界点和噪声点
④将每个边界点指派到一个与之关联的核心点的的簇中
⑤为距离在Eps之内的所有核心点之间赋予一条边
A.①②④⑤③
B.③①⑤②④
C.③①②④⑤
D.①④⑤②③ - 关于数据挖掘的方法论CRISP-DM说法正确是?
A.这是SPSS公司,Daimler Chrysler提出的数据挖掘流程
B.主要分为六步,业务理解,数据理解,数据准备,模型搭建,模型评估与模型发布
C.该方法论已经成功地在SAS EM中进行了实施
D.这六个过程有严格的前后顺序,分析过程中不能逆转或者跳转
析:顺序可变可不变 - 人工神经网络(ANN)是基于模仿大脑神经网络结构和功能而建立的一种信息处理系统,下列选项中,有关神经网络的描述不正确的是?
A.神经网络对训练数据中的噪声非常鲁棒
B.可以处理冗余特征
C.训练ANN是一个很耗时的过程
D.至少含有一个隐藏层的多层神经网络 - 为什么要在神经网络中计算误差值?
A.调整输入值
B.调整隐藏层个数
C.调整权重
D.调整真实值 - 下列选项中,哪个是对分析器效果验证指标中准确率的正确表述?
A.预测为正的数据在总数据中的比例
B.预测正确的数据在总数剧中的比例
C.预测为正的数据中实际为正的数据所占比例
D实际为正的数据中被预测为正的数据所占比例. - 下列有关C4.5算法中的说法中不正确的是?
A.每个结点的分支度只能为2
B.使用gain ratio作为节点分隔的依据
C.可以处理数值形态的字段
D.可以处理空值的字段 - 以下对最近邻分类算法(KNN)的说法错误的是?
A.它使用具体的训练实例进行预测,不必维护源自数据的模型
B.分类一个测试样例开销很大
C.最近邻分类器基于全局信息进行预测
D.可以产生任意形状的决策边界 - 以下有关聚类算法中K-Means和DBSCAN说法错误的是?
A.K均值会丢弃被他识别为噪声的对象,而DBSCAN一般聚类所有对象
B.K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念
C.K均值很难处理非球形的簇,DBSCAN可以处理不同大小和不同形状的簇
D.K均值可以发现不是明显分离的簇,即使簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇。 - 以下有关主成分分词,正确的是?
A.保留多少个主成分取决于累计方差在方差总和中所占百分比
B.一般选择50%以上
C.选前两个就可以
D.选择的数目和变量的个数一致 - 在ID3算法中信息增益是指?
A.信息的溢出程度
B.信息的增加效益
C.熵增加的程度最大
D.熵减少的程度最大



