判断题
- 多次抛一枚硬币,数字朝上的频率是1/2。对
- 分布式数据库是指利用高速计算机网络将物理上分散的多个数据存储单元连接起来组成一个逻辑上统一的数据库。对
- 关联规则挖掘就是寻找满足最小置信度的所有频繁项集。错
析:满足最小支持度和最小置信度 - 简单随机抽样中,各对象被抽中的概率可能会存在差异。错
析:在简单随机抽样中,每个个体被抽到的可能性都相等 - 具有较高置信度的项集也一定具有较高的支持度。错
- 逻辑回归算法通常用于关联规则挖掘。错
析:逻辑回归,多用于分类 - 逻辑回归算法只能用于二分类问题,即输出只有两种,分别代表两个类别。错
析:逻辑回归,也叫作 logistic 回归,是常用的数据挖掘算法。虽然名字中带有“回归”,但它实际上是分类方法,主要解决的是二分类问题,当然它也可以解决多分类问题,只是二分类更常见一些。 - 散点图在统计工作中主要功能是观察变量之间的相关关系。对
- 以下SQL,收入BETWEEN 2000 AND 5000,表示收入在2000至5000之间,包括2000但不包括5000。错
析:between and端点两边都包括 - 在硬件条件充裕的情况下,可在数据库中尽量多的建立索引,因为使用索引可以快速访问。错
析:创建索引会耗费空间、占用性能,所以要考虑是否必要再创建 - 安装完全分布式Apache Hadoop的核心配置文件有core-site.xml,hdfs-site.xml,mapred-site.xml,yarn-site.xml。对
- Hdfs, yarn,hbase,以及spark资源监控,spark任务监控的默认web端口分为50070,8088,16010,8080,4040。错
析:不止这些,还有很多,根据搭建方式和版本的不同 - spark的on yarn client模式启动命令为spark-submit -master yarn-client或spark-shell --master yarn-client。错
析:1. spark on yarn有两种模式,一种是cluster模式,一种是client模式。
a.执行命令“ ./spark-shell --master yarn”默认运行的是client模式。
b.执行‘./spark-shell --master yarn-client’或者”./spark-shell --master yarn --deploy-mode-client’运行的也是client.
c.执行“./spark-shell --master yarn-cluster" 或者*./spark-shell --master yarn --deploy-mode-cluster运行的是.cluster模式。 - 能够充分利用数据价值、先挖掘到数据价值的企业将会占领先机,不注重大数据等新兴技术的企业,将会落后甚至被淘汰。数据将成为最有价值的资产。对
- 数据市场化的价值,在于为各个经济体之间的数据交易提供便捷的途径,使数据以流程化、标准化的方式进行交付。对



