在ALevel数学的统计学(statistics)中,很重要的一个内容就是总体(Population)和样本(Sample),当我们想知道总体的情况时,很多时候没有办法调查到每一个个体,即不能进行全体普查(Census),例如在调查一车水果的成熟程度时,是不能把每个水果都切开看一遍的,否则全部调查完之后所有的个体都被破坏掉了,调查也失去了意义。
这时我们就要采用抽样调查(Sampling)的方式,而如何选取样本,能最真实的反映总体的数据呢?今天我们来介绍以下Alevel统计学中的几种随机抽样方法
A simple random sample of size n is one where every sample of size n has an equal chance of being selected.
常见的随机抽样共有四种方式:
将需要统计的总体,每个个体全部编号,再用抽签法或随机数字表随机抽取部分观察组成样本。
优点:操作简单,平均数及相应的误差计算简单。
缺点:总体较大时,难以一一编号。
又称机械抽样、等距抽样,即先将总体的每个个体按某一顺序分成几个部分,再从第一部分随机抽取第n号作为该组的样本数据,依次用相等间距,从每一部分各抽取一个个体组成样本。
优点:易于理解、简便易行。
缺点:总体有周期或增减趋势时,易产生偏性,即会产生较大误差。
总体分群,再随机抽取几个群组成样本,群内全部调查。
优点:便于组织、节省成本。
缺点:抽样误差大于简单随机抽样,因为并不是每个群体都会被调查到。
先按对观察指标影响较大的某种特征,将总体分为若干个类别,再从每一层内随机抽取一定数量的观察单位,合起来组成样本。例如按照年龄、性别占总体的比例进行抽样等。
优点:样本代表性好,抽样误差减少。
缺点:总体较大时,难以一一编号。
以上四种基本抽样方法都属单阶段抽样,实际应用中常根据实际情况将整个抽样过程分为若干阶段来进行,称为多阶段抽样。
各种抽样方法的抽样误差一般是:整群抽样≥单纯随机抽样≥系统抽样≥分层抽样。
我们来看两道例题,来判断一下分别是哪种抽样方式:
题目中说,健身俱乐部的成员都有一个5位数的编号,现在选取最后三位数是000的成员进行调查统计,所以每个被抽中的人编号间隔应该是1000,相当于是等距分布,故是系统抽样(systematic sampling)。
题目中问那种抽样方式比较合适,因为已经给出了总体中性别和年级的比例,所以很明显是按照类别分类的,故应选择分层抽样(stratified sampling)。