栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

题库136-150

题库136-150

题库136-150

单选

  1. 以下不属于分类模型评估中基于比例维度的指标是?(不会)
    A.KS值
    B.特异性
    C.Kappa统计量
    D.Lift值
  2. 分类模型评估指标呈现中,表示用了模型跟不用模型之间的差异的曲线叫做?
    A.ROC曲线
    B.Lift曲线
    C.KS曲线
    D.捕获率曲线
    析: Lift =[TP/(TP+FP)] / [(TP+FN)/(TP+FP+FN+TN)] = Precision / Accuracy,它衡量的是,与不利用模型相比,模型的预测能力“变好”了多少,lift(提升指数)越大,模型的运行效果越好。Lift图分累积的和非累积的。
  3. 如果我们现有一个安装2.6.5版本的Hadoop集群,在不修改默认配置的情况下存储200个每个200M的文本文件,请问最终会在集群中产生多少个数据块(包括副本)?
    A.200
    B.40000
    C.400
    D.1200
    析:hadoop2.x数据块大小是128mb,dfs.replication默认是3。 其中200个200m会按照128m的数据块大小进行分割分散存储,就是(200 * 2),再乘以3份,就是 400 * 3 = 1200.
  4. 以下关于hive操作描述不正确的是?
    A.Hive是一个建立在Hadoop文件系统上的数据仓库架构,可以用其对HDFS上
    B.Hive依赖于MapReduce处理数据
    C.Hive加载数据的时候,可以用local进行装饰,表示从某个本地目录下加载数据
    D.Hive一般可以用于实时的查询分析
    析:hive无法做到实时查询,需要一段时间才能返回结果。
  5. 倒传递神经网络(BP神经网络)的训练顺序是什么?(1:调整权重;2:计算误差值;3:利用随机的权重产生输出的结果)
    A.231
    B.312
    C.213
    D.321
  6. DBSCAN算法的过程是?
    ①删除噪声点
    ②每组连通的核心点形成一个簇
    ③将所有点标记为核心点、边界点和噪声点
    ④将每个边界点指派到一个与之关联的核心点的的簇中
    ⑤为距离在Eps之内的所有核心点之间赋予一条边
    A.①②④⑤③
    B.③①⑤②④
    C.③①②④⑤
    D.①④⑤②③
  7. 关于数据挖掘的方法论CRISP-DM说法正确是?
    A.这是SPSS公司,Daimler Chrysler提出的数据挖掘流程
    B.主要分为六步,业务理解,数据理解,数据准备,模型搭建,模型评估与模型发布
    C.该方法论已经成功地在SAS EM中进行了实施
    D.这六个过程有严格的前后顺序,分析过程中不能逆转或者跳转
    析:顺序可变可不变
  8. 人工神经网络(ANN)是基于模仿大脑神经网络结构和功能而建立的一种信息处理系统,下列选项中,有关神经网络的描述不正确的是?
    A.神经网络对训练数据中的噪声非常鲁棒
    B.可以处理冗余特征
    C.训练ANN是一个很耗时的过程
    D.至少含有一个隐藏层的多层神经网络
  9. 为什么要在神经网络中计算误差值?
    A.调整输入值
    B.调整隐藏层个数
    C.调整权重
    D.调整真实值
  10. 下列选项中,哪个是对分析器效果验证指标中准确率的正确表述?
    A.预测为正的数据在总数据中的比例
    B.预测正确的数据在总数剧中的比例
    C.预测为正的数据中实际为正的数据所占比例
    D实际为正的数据中被预测为正的数据所占比例.
  11. 下列有关C4.5算法中的说法中不正确的是?
    A.每个结点的分支度只能为2
    B.使用gain ratio作为节点分隔的依据
    C.可以处理数值形态的字段
    D.可以处理空值的字段
  12. 以下对最近邻分类算法(KNN)的说法错误的是?
    A.它使用具体的训练实例进行预测,不必维护源自数据的模型
    B.分类一个测试样例开销很大
    C.最近邻分类器基于全局信息进行预测
    D.可以产生任意形状的决策边界
  13. 以下有关聚类算法中K-Means和DBSCAN说法错误的是?
    A.K均值会丢弃被他识别为噪声的对象,而DBSCAN一般聚类所有对象
    B.K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念
    C.K均值很难处理非球形的簇,DBSCAN可以处理不同大小和不同形状的簇
    D.K均值可以发现不是明显分离的簇,即使簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇。
  14. 以下有关主成分分词,正确的是?
    A.保留多少个主成分取决于累计方差在方差总和中所占百分比
    B.一般选择50%以上
    C.选前两个就可以
    D.选择的数目和变量的个数一致
  15. 在ID3算法中信息增益是指?
    A.信息的溢出程度
    B.信息的增加效益
    C.熵增加的程度最大
    D.熵减少的程度最大
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/285695.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号