1.在做定性数据分布分析时常对某一属性的类别做统计,除了饼图外也常直接利用对象的______________()方法来计算,计算效果如下图所示。假设属性target共有3类,每个类别各有50、20和50个样本。
value_counts
2.统计量分析分为集中趋势分析和离中趋势分析两类,如下选项中属于离中趋势分析的指标有哪些?
3.散点图是观察两个一维数据序列之间关系的有效手段,请填写空格( 两个答案之间用一个半角即英文分号分隔)以得到可口可乐公司在近一年中每日收盘价与开盘价之差与当日成交量之间的散点图,假设已获取数据并存入一个Dataframe对象quotesKOdf中,每日收盘价、开盘价和成交量的属性名分别为open、close和volume。
scatter;quotesKOdf.volume
4.观察如下基于皮尔逊相关系数绘制的热力图,判断属性sepal width(cm)和sepal length(cm)之间的相关关系可能符合如下哪一个选项?
负弱线性关系
5.假设要计算可口可乐公司(假设数据保存在Dataframe对象quotesKOdf中)在近一年中开盘价在[52,54]区间的所有记录各属性的中位数,执行效果如下图所示,请选择符合两处横线处合适的代码的选项。
6.假设获取了可口可乐公司的部分历史数据并将数据存放于一个Dataframe对象quotesKOdf中,并将日期设为了quotesKOdf的index,数据片段如下图所示。如下选项哪些可以用来计算quotesKOdf中每个月的总成交量?
7.若已从一个Dataframe对象df中选择了两部分数据(保持数据属性完整)分别存入df1和df2中,代码行如下,请从如下选项中选出可以正确合并这两部分数据的函数/方法补充完整代码。
concat
8.判断如下陈述是否正确?
K-means是一种非监督的聚类学习算法,K代表用户最初在空间中选定的中心数量。
T



