怎么样理解置信区间(置信区间其实很容易懂)

怎么样理解置信区间(置信区间其实很容易懂)(1)

举个例子,比如你想知道全国所有中学生的平均身高,你不可能去测量每一个学生的身高,因此采取了随机抽样的方式,用样本去预估去全国所有中学生的身高。

假设你随机抽取了100名学生,其平均身高为150cm,方差为25。

点估计

如果你用100个样本的平均值得出全国中学生的平均身高是150cm,这就是点估计,150cm就是点估计量(根据中心极限定理,样本的均值和总体的均值是相似的)。

区间估计

如果你不想用样本的一个平均值去估计整体的平均值(比如150cm),而是用一个区间去估计(比如140-155cm),这就叫区间估计。区间估计相比点估计留有更大的容错空间。

区间的范围很大,你可以预测身高是149-151cm之间,也可以预测是140-160cm之间,也可以是其他。但你会看到,前者相比后者预测准确的概率更低,因为其预测的区间范围太窄;而后者预测准确的概率更高,因为其预测的区间范围更宽。

这就像投掷一次骰子,如果你预测是3-6,小明预测3-4,那么你猜对的概率是67%,而小明猜对的概率是33%,你比小明猜对的可能性更大。

所以,具体如何确定估计的范围(也就是置信区间)取决于你对预估结果准确概率的要求(也就是置信水平)。如果你希望结果准确的概率更高,那么区间的范围(置信区间)就设置的越宽;如果置信水平越低,置信区间就设置的越窄。

怎么样理解置信区间(置信区间其实很容易懂)(2)

如何设置置信区间

还是以上文中学生的身高为例,已知100个样本的平均身高为150cm,方差为25;请预估全国中学生整体的身高范围(置信区间)。

假设全国中学生的平均身高为μ,标准差为σ;则我们要求的是μ在某个置信水平的取值范围,总体X服从正态分布

怎么样理解置信区间(置信区间其实很容易懂)(3)

假设100个样本的平均体重为x(x=150cm),根据中心极限定理,则样本均值也服从正态分布

怎么样理解置信区间(置信区间其实很容易懂)(4)

由于样本平均值是呈正态分布的,我们便可以通过这条神奇的曲线推出以下结论:

(1)约有68%的样本平均值会在群体平均值一个标准误差的范围之内;(2)约有95%的样本平均值会在群体平均值的两个标准误差的范围之内;(3)约有99.7%的样本平均值会在群体平均值三个标准误差的范围之内。

标准差的计算公式如下图所示:其中SE代表标准误差,SD代表标准差,N代表样本量。

怎么样理解置信区间(置信区间其实很容易懂)(5)

将方差=25,n=100带入到公式中,则100名样本的平均身高服从正态分布~N(μ, 0.25)。

然后,设置置信水平,常见的有68%,95%,99.7%,此处设置95%的置信水平,则

P(μ-2 * SE < x < μ 2 * SE)=0.95,SE为标准误差,根据上文公式计算为0.5,带入公式中为 P(μ-2 * 0.5< x < μ 2 * 0.5)=0.95 , 即P( μ-1< x < μ 1)=0.95 。

求出总体均值μ的范围 x-1 < μ < x 1,带入样本量的平均体重 x =150, 则总体的平均体重范围即95%的置信区间为149 <u < 151,也就是说全国中学生的平均体重有95%的概率在149到151cm之间。

怎么样理解置信区间(置信区间其实很容易懂)(6)

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页