习题1: 中心极限定理的模拟——总体服从卡方分布

总体分布服从自由度为10的卡方分布。完成下列要求:

  1. 从总体中抽取1个个案组成一个样本,计算该样本的均值。重复该过程1000次,绘制这1000个样本的样本均值的直方图和概率密度曲线。

  2. 从总体中抽取5个个案组成一个样本,计算该样本的均值。重复该过程1000次,绘制这1000个样本的样本均值的直方图和概率密度曲线。

  3. 从总体中抽取30个个案组成一个样本,计算该样本的均值。重复该过程1000次,绘制这1000个样本的样本均值的直方图和概率密度曲线。

  4. 从总体中抽取100个个案组成一个样本,计算该样本的均值。重复该过程1000次,绘制这1000个样本的样本均值的直方图和概率密度曲线。

par(mfrow = c(2,2),mai = c(0.6,0.6,0.2,0.1),cex = 0.6)
sample_size <-  c(1,5,30,100)
for (j in 1:4){
  sample_mean <- array(0,dim=1000)
  for (i in 1:1000){
    x <- rchisq(sample_size[j],10)
    sample_mean[i] <- mean(x)
  }
  hist(sample_mean, freq = F,col = j+3,
       xlim=c(0,20),
       ylim=c(0,1),
       main = paste("sample size=", sample_size[j]))
  lines(density(sample_mean),col=2,lwd=2)
}

  1. 简要描述上述4组图形的相同和不同之处。

相同之处:样本均值的分布的中心都是总体均值10。

不同之处: 当样本容量为1和5时,样本均值呈右偏分布;当样本容量为30和100,样本均值趋于正态分布;样本均值的方差随着样本容量的增加而减小。

习题2: 中心极限定理的模拟——总体服从均匀分布

总体分布服从(0,10)的均匀分布。完成下列要求:

  1. 从总体中抽取1个个案组成一个样本,计算该样本的均值。重复该过程1000次,绘制这1000个样本的样本均值的直方图和概率密度曲线。

  2. 从总体中抽取5个个案组成一个样本,计算该样本的均值。重复该过程1000次,绘制这1000个样本的样本均值的直方图和概率密度曲线。

  3. 从总体中抽取30个个案组成一个样本,计算该样本的均值。重复该过程1000次,绘制这1000个样本的样本均值的直方图和概率密度曲线。

  4. 从总体中抽取100个个案组成一个样本,计算该样本的均值。重复该过程1000次,绘制这1000个样本的样本均值的直方图和概率密度曲线。

par(mfrow = c(2,2),mai = c(0.6,0.6,0.2,0.1),cex = 0.6)
sample_size <-  c(1,5,30,100)
for (j in 1:4){
  sample_mean <- array(0,dim=1000)
  for (i in 1:1000){
    x <- runif(sample_size[j],0,10)
    sample_mean[i] <- mean(x)
  }
  hist(sample_mean, freq = F,col = j+3,
       xlim=c(0,15),
       ylim=c(0,1.4),
       main = paste("sample size=", sample_size[j]))
  lines(density(sample_mean),col=2,lwd=2)
}

  1. 简要描述上述4组图形的相同和不同之处。

相同之处:样本均值的分布的中心都是总体均值5,都是对称分布。

不同之处:随着样本容量的增加,样本均值的方差变小,越来越集中于其分布的中心。

习题3: 中心极限定理的模拟——总体服从正态分布

总体分布服从正态分布(自行设定正态分布的均值和标准差)。完成下列要求:

  1. 从总体中抽取1个个案组成一个样本,计算该样本的均值。重复该过程1000次,绘制这1000个样本的样本均值的直方图和概率密度曲线。

  2. 从总体中抽取5个个案组成一个样本,计算该样本的均值。重复该过程1000次,绘制这1000个样本的样本均值的直方图和概率密度曲线。

  3. 从总体中抽取30个个案组成一个样本,计算该样本的均值。重复该过程1000次,绘制这1000个样本的样本均值的直方图和概率密度曲线。

  4. 从总体中抽取100个个案组成一个样本,计算该样本的均值。重复该过程1000次,绘制这1000个样本的样本均值的直方图和概率密度曲线。

par(mfrow = c(2,2),mai = c(0.6,0.6,0.2,0.1),cex = 0.6)
sample_size <-  c(1,5,30,100)
for (j in 1:4){
  sample_mean <- array(0,dim=5000)
  for (i in 1:5000){
    x <- rnorm(sample_size[j],70,10)
    sample_mean[i] <- mean(x)
  }
  hist(sample_mean, freq = F,col = j+3,
       xlim=c(40,100),
       ylim=c(0, 0.5),
       main = paste("sample size=", sample_size[j]))
  lines(density(sample_mean),col=2,lwd=2)
}

  1. 简要描述上述4组图形的相同和不同之处。

相同之处:样本均值的分布的中心都是总体均值70, 都是正态分布分布。

不同之处:样本均值的方差随着样本容量的增加而减小,样本均值越来越集中于其分布的中心。

习题4:置信水平的理解

总体服从均值为15,标准差为2的正态分布。

从总体中抽取容量为50的个体,组成一个样本,利用该样本构造总体均值的95%的置信区间。重复该过程1000次,利用这1000个样本构造1000个95%的置信区间。计算这1000个置信区间中包含总体均值的比例是多少?

从总体中抽取容量为50的个体,组成一个样本,利用该样本构造总体均值的90%的置信区间。重复该过程1000次,利用这1000个样本构造1000个90%的置信区间。计算这1000个置信区间中包含总体均值的比例是多少?

# 95%的置信水平
ci <- array(0,dim = c(1000,2))
for (i in 1:1000){
  x <- rnorm(50, 15, 2)
  ci[i,] <- c(t.test(x)$conf.int[1],t.test(x)$conf.int[2])
}

head(ci)
         [,1]     [,2]
[1,] 14.14061 15.19463
[2,] 14.73410 15.69355
[3,] 14.30374 15.39682
[4,] 14.50619 15.47222
[5,] 14.94829 16.13256
[6,] 14.34250 15.49100
mean(1*((ci[,1]<15) & (ci[,2]>15)))
[1] 0.944
# 90%的置信水平
ci <- array(0,dim = c(1000,2))
for (i in 1:1000){
  x <- rnorm(50, 15, 2)
  ci[i,] <- c(t.test(x, conf.level = 0.9)$conf.int[1],
              t.test(x, conf.level = 0.9)$conf.int[2])
}

head(ci)
         [,1]     [,2]
[1,] 14.33474 15.33063
[2,] 14.34891 15.29099
[3,] 14.21171 15.09011
[4,] 14.37464 15.26879
[5,] 14.63934 15.59534
[6,] 14.40010 15.20734
mean(1*((ci[,1]<15) & (ci[,2]>15)))
[1] 0.892