栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

题库91-105

题库91-105

题库91-105

单选

  1. 在Hadoop生态组件中,哪个产品可用于复杂的批量数据处理?
    A.MapReduce、Hive
    B.Impala
    C.Storm
    D.Mahout
  2. 下面关于使用hive的描述中不正确的是?(不确定,B或者D)
    A.hive中的join查询只支持等值连接,不支持非等值连接
    B.hive的表一共有两种类型,内部表和外部表
    C.hive默认仓库路径为/user/hive/warehouse/
    D.hive支持数据删除和修改
  3. 关于Hbase下面说法正确的是?
    A.Hbase是一个稀疏、多维度、排列的映射表,这张表的索引是行键、列键
    B.每个值是一个未经解释的字符串,没有数据类型,程序员要自己对他进
    C.用户在表中存储数据,每一行都有一个可排序的行键和任意多的列键
    D.以上说法都正确
  4. 万维网之父是?
    A.彼得·德鲁克
    B.舍恩伯格
    C.蒂姆·伯纳斯 -李
    D.斯科特·布朗
  5. BIRCH是一种?
    A.分类器
    B.聚类算法
    C.关联分析算法
    D.特征选择算法
  6. 数据挖掘算法中,下列关于聚类的说法中,错误的是?(不确定)
    A.不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别
    B.要求同类数据的内容相似度尽可能小
    C.要求不同类数据的内容相似度尽可能小
    D.与分类挖掘技术相似的是,都是要对数据进行分类处理
  7. 为什么DBSCAN算法难以有效处理高维数据?(不确定,在A和D之间徘徊)
    A.数据的形状太复杂
    B.簇的大小未知
    C.噪声点过多
    D.开销过大
    析:DBSCAN算法优点:耐噪声,能够处理任意大小和形状的簇
  8. ROC曲线是验证模型的常用方法,曲线约凸向哪个角,代表模型效果越理想?
    A.左上角
    B.右上角
    C.左下角
    D.右下角
  9. 贝叶斯决策是根据什么进行决策的一种方法?
    A.极大似然概率
    B.先验概率
    C.边际概率
    D.后验概率
  10. 簇评估作用有?
    ①确定数据集的聚类趋势
    ②确定正确的簇个数
    ③比较两个簇集,确定哪个更好
    ④不引用附加信息,评估聚类分析结果对数据拟合情况
    A.①②
    B.②③④
    C.①②③
    D.①②③④
  11. 存在关联规则为A→B,此规则的confidence为80%,则代表?
    A.买B商品的顾客中,有80%的顾客会同时购买A
    B.同时购买A,B两商品的顾客,占所有顾客的80%
    C.买A商品的顾客中,有80%的顾客会同时购买B
    D.两商品A,B在交易数据库中同时被购买的机率为80%
    析:confidence(A→B) = count(AUB)/count(A)
  12. 对Apriori算法,下列选项中表述有误的是?
    A.Apriori算法是关联分析中最常用的算法之一
    B.应用Apriori算法时,需要先设定模型的最小支持度、最小置信度等阈值
    C.应用Apriori算法时,输入的数据可以是连续型数据也可以是离散型数据
    D.Apriori算法扫描数据库的次数依赖于最大频繁项集中项的数量
  13. 关于逻辑回归因变量和自变量的说法中,正确的是?
    A.逻辑回归的因变量为数值变量
    B.逻辑回归的因变量为定性变量
    C.逻辑回归的自变量为定性变量
    D.逻辑回归的因变量只能有两种取值
  14. 基于规则的分类器有Apriori,随机森林,还有?
    A.C4.5
    B.KNN
    C.Naive Bayes
    D.ANN
  15. 假设检验中显著性水平是?
    A.推断时犯取伪错误的概率
    B.推断时取伪弃真的概率
    C.正确推断的概率
    D.是推断的可信度
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/283072.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号