多选
- 层次聚类的聚类方式有?
A.凝聚方式聚类
B.分解方式聚类
C.Q型聚类
D.R型聚类 - 以下哪些算法可以做数值的预测(Prediction) ?
A.Apriori
B.Decision Tree
C.Naive Bayes
D.Linear Regression - 下列说法中不正确的是?
A.任何两个变量都具有相关关系
B.人的知识与其年龄具有相关关系
C.散点图中的各点是分散的没有规律
D.根据散点图求得的回归直线方程都是有意义的 - 相关分析可以做到?
A.判定现象之间有无关系
B.判定现象之间关系的方向
C.判定相关关系的紧密程度
D.说明现象之间联系的具体形式 - SQL中的HAVINg用法,正确的有?
A.HAVINg子句必须与GROUP BY子句同时使用,不能单独使用
B.使用HAVINg子句的同时不能使用WHERe子句
C.使用HAVINg子句的同时可以使用WHERe子句
D.使用HAVINg子句的作用是限定分组的条件 - 箱线图包含的五个统计量是?
A.中位数
B.众数
C.四分位数
D.最值
析:最小值、第一四分位数、中位数、第三四分位数与最大值 - 张亮持有A、B 、C、D、E五只股票,请问以下不属于时间序列问题的有?
A.透过A只股票过去一年来的股价走势,预测明天A只股票的开盘价格
B.将A、B、C、D、E五只股票区分为赚钱与赔钱两个类别
C.将A、B、C、D、E五只股票区分为甲、乙、丙三个群体
D.透过A,C, D三只股票过去一年来的走势,预测明天A只股票的开盘价格 - 以下选项中可以用于预测Y为分类变量的方法有?
A.伽玛回归
B.泊松回归
C.Logistic回归
D.Probit回归 - 关联规则的条件是满足?
A.最小支持度(MinimumSupport)
B.最小信赖度(MinimumConfidence)
C.最大规则数(MaximumRule Number)
D.以上皆非 - 以下选项中属于聚类算法的是?
A.K-Means
B.DBSCAN
C.Apriori
D.KNN
析:Apriori是数据关联规则算法,KNN是分类算法。 - 以下选项数据web内容挖掘实现技术的有?
A.文本总结
B.文本分类
C.文本聚类
D.关联规则 - 关于极差说法错误的是?
A.一组数据的最大值与最小值之差
B.离散程度的最简单测度值
C.易受极端值影响
D.未考虑数据的分布和中间变量值的离散情况 - 大数据的三个阵营包括?(这个不确定因为服务提供者本身就是去挖掘的,所以不确定C包不包括)
A.数据拥有者
B.数据应用者、服务者
C.数据挖掘者
D.技术拥有者
析: 目前,在大数据产业链上有三种大数据公司:
1)基于数据本身的公司(数据拥有者):拥有数据,不具有数据分析的能力;
2)基于技术的公司(技术提供者):技术供应商或者数据分析公司等;
3)基于思维的公司(服务提供者):挖掘数据价值的大数据应用公司; - 大数据的精髓是?
A.不是随机样本而是全部数据
B.不是精确性而是混杂性
C.不是因果关系而是相关关系
D.不是实时变化而是全量变化
析:大数据带给我们的三个颠覆性观念转变:是全部数据,而不是随机采样;是大体方向,而不是精确制导;是相关关系,而不是因果关系。 - 大数据有什么特点?
A.数据量大
B.速度快、时效高
C.类型多
D.价值密度低、含量大
析:大数据的4V特征是Volume(大量性)、Velocity(高速性)、Variety(多样性)、Value(价值性)



