2021-10-11 统计学-基于R（第四版）第三章课后习题记录及总结

3.1 题目如下

（1) 相关理解见注释，完整代码为：

> exer1<-read.csv("D:/作业/统计学R/《统计学—基于R》（第4版）—例题和习题数据（公开资源）/exercise/chap03/exercise3_1.csv")
> mean(exer1$网购金额)  #平均数
[1] 1032.64
> sd(exer1$网购金额)  #标准差
[1] 385.3728
> max(exer1$网购金额)-min(exer1$网购金额)  #极差
[1] 1981
> IQR(exer1$网购金额,type=6)  #四分位差
[1] 422.75

（2) 相关理解见注释，完整代码为：

> quantile(exer1$网购金额,probs=c(0.1,0.25,0.5,0.75,0.9),type=6)
    10%     25%     50%     75%     90% 
 532.20  825.75  985.50 1248.50 1490.90

（3) 相关理解见注释，完整代码为：

> as.vector(round(scale(exer1$网购金额),4))  #标准分数
 [1] -0.0743 -0.2897 -0.2715  0.2993  0.9948 -1.1175 -0.1106  0.2656 -0.4039
[10]  0.9014  1.3165  0.7171 -0.6322  3.2108 -1.3484 -1.3251 -1.3095 -0.0380
[19] -0.1963  1.0129 -0.4013 -0.5051 -0.3312 -0.4999  0.4966 -0.3027  1.1920
[28] -0.2534 -1.1849 -1.9297  0.3461 -0.2715 -0.2430  0.2007  0.5562  0.0762
[37]  0.6912 -0.7879 -1.2005 -0.9747 -1.7869  0.1930  1.9964  0.5718  2.0327
[46]  0.4343 -0.1340 -1.0059  0.2604  1.1634
> abs(as.vector(round(scale(exer1$网购金额),4)))>=3  #离散点判断
 [1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
[13] FALSE  TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
[25] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
[37] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
[49] FALSE FALSE

其中离散点为平均数加减3倍标准差之外的点，即标准分数的绝对值大于等于3的情况。

（4) 相关理解见注释，完整代码为：

> library(e1071)
> skewness(exer1$网购金额,type=3)  #中等程度的右偏分布
[1] 0.6240347
> kurtosis(exer1$网购金额,type=3)  #尖峰分布
[1] 0.8262566

对于偏度系数：

偏度系数大于1或小于-1为严重偏斜分布

偏度系数在0.5~1或-1~-0.5为中等偏斜分布

偏度系数小于0.5或大于-0.5为轻微偏斜分布

负值代表左偏分布，正值代表右偏分布

对于峰度系数：

K>0为尖峰分布，数据分布的峰值比标准正态分布高，数据相对集中

K<0为扁平分布，数据分布的峰值比标准正态分布低，数据相对分散

3.2 题目如下

（1）选择小提琴图：

> exer2<-read.csv("D:/作业/统计学R/《统计学—基于R》（第4版）—例题和习题数据（公开资源）/exercise/chap03/exercise3_2.csv")
> library(vioplot)
> par(mai=c(0.6,0.6,0.3,0.3),cex=0.7)
> palette<-RColorBrewer::brewer.pal(3,"Set2")
> names=c("方法A","方法B","方法C")
> vioplot(exer2[1:3],col=palette,names=names,main="小提琴图",xlab="组装方法",ylab="产品数量")

画出来的效果如图：

（2）计算描述统计如下：

> library(pastecs)
> round(stat.desc(exer2),4)
                 方法A     方法B     方法C
nbr.val        15.0000   15.0000   15.0000
nbr.null        0.0000    0.0000    0.0000
nbr.na          0.0000    0.0000    0.0000
min           162.0000  125.0000  116.0000
max           170.0000  132.0000  128.0000
range           8.0000    7.0000   12.0000
sum          2484.0000 1931.0000 1883.0000
median        165.0000  129.0000  126.0000
mean          165.6000  128.7333  125.5333
SE.mean         0.5503    0.4522    0.7163
CI.mean.0.95    1.1803    0.9698    1.5362
var             4.5429    3.0667    7.6952
std.dev         2.1314    1.7512    2.7740
coef.var        0.0129    0.0136    0.0221

小提琴图和描述统计量均显示，方法A的均值较高，离散程度也较小。方法B和方法C差距不大。

3.3 题目如下

（1）选择小提琴图：

> exer3<-read.csv("D:/作业/统计学R/《统计学—基于R》（第4版）—例题和习题数据（公开资源）/exercise/chap03/exercise3_3.csv")
> par(mai=c(0.6,0.6,0.3,0.3),cex=0.7)
> palette<-RColorBrewer::brewer.pal(3,"Set2")
> vioplot(exer3[1:2],col=palette,names=names,main="小提琴图",xlab="性别",ylab="身高")

画出来的效果如图：

（2）计算描述统计如下：

> library(pastecs)
> round(stat.desc(exer3),4)
                  男生      女生
nbr.val        50.0000   50.0000
nbr.null        0.0000    0.0000
nbr.na          0.0000    0.0000
min           166.5000  157.0000
max           196.0000  179.2000
range          29.5000   22.2000
sum          8928.0000 8392.8000
median        177.5000  167.7000
mean          178.5600  167.8560
SE.mean         0.9416    0.6981
CI.mean.0.95    1.8922    1.4029
var            44.3282   24.3670
std.dev         6.6579    4.9363
coef.var        0.0373    0.0294

小提琴图和描述统计量均显示，男生平均身高高于女生，离散程度也相对较大。

结束啦，做的还挺快的~~下次见。

2021-10-11 统计学-基于R（第四版）第三章课后习题记录及总结

Python相关栏目本月热门文章