抽样入门:舍得之道

本文转载自趣味数据周刊,作者herain

选择决定后续的果

统计推断需要样本,模型的训练需要样本,预测决断的也需要样本;

这里一而再再而三的提到样本, 因为样本是我们一眼可得的宏观世界的缩影,是探取自然,人类社会能量的探针,更是我们一叶之秋的信息索引。

那么 当人在有限的人力物力财力之下发挥能动性的个体筛选,基于个体特征来试图描述宏观总体的特征就是抽样的本质。

了解抽样的定义,我们就能很容易的知道抽样是 一个大前提下的两大组成: 在有限成本前提下的样本选择和总体推断。

1. 样本选择

非概率抽样不依据随机原则具有主观性和误差难以计量的抽样方法,概率抽象遵循自然分布,随机均等的入样概率具有客观性和误差可以度量的抽样方法。

如下, 非概率抽样过于在意样本本身的特殊性,概率抽样则忽略样本本身的特殊性,注重选择的客观随机,这样选择的样本的普遍性更能反映总体。

2. 主要样本方法的介绍

2.1 简单随机抽样是指从总体N个单位中任意抽取n个单位作为样本,使每个可能的样本被抽中的概率相等的一种抽样方式。选择的方式有抽签,机数表法,直接抽选法。

2.2 分层抽样是从一个可以分成不同子总体(或称为层)的总体中,按规定的比例从不同层中随机抽取个体的方法。简单的例子:一个市做人口抽样调查,以县为层,按一定的比例抽取人,作为推断全市人口情况的样本。

2.3 整群抽样是指整群地抽选样本单位,对被抽选的各群进行全面调查的一种抽样组织方式。例如,检验某种零件的质量时,不是逐个抽取零件,而是随机抽若干盒 (每盒装有若干个零件),对所抽各盒零件进行全面检验。

2.4 多阶段抽样是先将一个很大的总体划分为若干个子总体,即一阶单位,再把一阶单位划分为若干个更小的单位,称为二阶单位,照此继续下去划分出更小的单位,依次称为三阶单位、四阶单位等。然后分别按随机原则逐阶段抽样。

2.5 系统抽样法又叫做等距抽样法或机械抽样法,是依据一定的抽样距离,从总体中抽取样本。要从容量为N的总体中抽取容量为n的样本,可将总体分成均衡的若干部分,然后按照预先规定的规则,从每一部分抽取一个个体,得到所需要的样本的抽样方法。

当然还有其他很多抽样方法,比如捕获再捕获等......

3. 总体推断

简单随机抽样是其他随机抽样的概率的基础,其他随机抽样是在简单随机抽样基础之上的发展。所以这里我们就用简单随机抽样的方式之下,用来描述总体推断的统计量。

3.1 总体均值

3.2 总体总值

3.3 总体比例(示性变量取值:0,1)

3.4 总体比率(两个总体总量或总体均值的比)

3.5 估计量的方差

4. 结语

此文帮助大家全局的窥探抽样,希望大家有一个全局的学习观;抽样方法的目的是为了提高估计总体特征的精度,而估计精度度的因素依赖于:样本量,总体大小,总体方差。抽样具体的探究就是围绕着: 估计精度,样本量,总体大小,总体方差四个主体的数学表达及理论推演。

封面图来源: Photo by  Brendan Church  on  Unsplash

我来评几句
登录后评论

已发表评论数()

相关站点

热门文章