抽样框误差的来源
抽样框误差有五个来源,分别是:
1、不能覆盖目标总体单位
所谓的不能覆盖目标总体单位,指的是目标总体单位没有出现在抽样样本中,那么他们就不可能在随后的抽样过程中被选中,导致数据丢失。
2、与不能覆盖相对应的就是,抽样样本包含了非目标总体单位
包含非目标总体单位主要是由于目标总体的变化产生的误差。相对于不能覆盖的误差而言,包含非目标总体单位误差比较容易被发现。
3、复合联接
复合联接的意思就是一个目标总体单位联接着一个以上的抽样单位。比如,有的家庭拥有两个住所、两个地址,那么他们被选中的概率就是一般家庭的两倍。复合联接的对象如果具有某些特征值就会使样本失真,导致均值发生偏差。
4、抽样框老化
统计数据有很强的即时性,随着时间的推移,抽样框必须更新,否则就会老化不符合实际情况使抽样不精确。最典型的例子,就是随着城市建设的大规模展开,许多地区已经被改造,地址发生了完全的变化,如果依旧按以前的抽样框去抽样,那么精度就会非常难以控制。
5、辅助信息不正确
前面四种抽样框误差会发生在简单抽样框也会发生在复杂抽样框,而辅助信息不正确只可能出现在复杂抽样框内。一般,较大规模和较复杂的抽样必须采用复杂抽样框,就是必须要有辅助信息。如果辅助信息不准确,就会导致复杂抽样的效果反而不及简单随机抽样。
建立一个准确、及时的抽样框是减少误差的基础,在现实生活中,有缺陷的抽样框并非不能用,关键看如何去弥补和弥补的成本有多高。