graphpadprism平均值分析(GraphPadPrism统计教程)

什么是SD?

标准差(SD)量化了变异性或分散性,并以与数据相同的单位表示。

什么是标准差?

通过几个问题,我们来深入理解一下标准差的概念。

Q1 如果数据呈高斯分布,如何解释SD?

如果数据从高斯分布群体中抽样得到,则你预计68%的值处于平均值的SD内,95%的值处于平均值的两个SD内。该图示出了从高斯分布群体抽样得到的250个值。阴影面积覆盖平均值的一个正负SD,包括数值的约三分之二。虚线基于平均值加减两个标准偏差绘出,约95%的值处于这些范围内。

graphpadprism平均值分析(GraphPadPrism统计教程)(1)

以下图表示出了标准偏差与高斯分布之间的关系。概率分布下面积代表整个群体,因此部分概率分布下面积代表群体的一部分。在左侧图表中,绿色(阴影)部分低于平均值的一个SD延伸到高于平均值的一个SD。绿色面积约占总面积的68%,因此略多于三分之二的值处于平均值加减一个SD的区间内。右侧图表示出了约95%的值位于平均值的两个标准偏差内。

graphpadprism平均值分析(GraphPadPrism统计教程)(2)

Q2 如果数据不服从高斯分布,如何解释SD?

下图示出了三组数据,所有三组数据均具有完全相同的平均值和SD。左侧样本近似为高斯分布。另外两个样本远离高斯分布,但具有完全相同的平均值(100)和标准偏差(35)。

graphpadprism平均值分析(GraphPadPrism统计教程)(3)

该图表指出,如果假设数据服从高斯分布,但该假设不正确,则采用常规方式解释平均值和SD时可能会产生误导。

SD仍然可以在不假设服从高斯分布的情况下进行解释。. 切比雪夫定理 提到,即使数据并非从高斯分布群体中抽样得到:

  • 至少75%的值必须位于平均值的两个标准偏差内
  • 至少89%的值必须位于三个标准偏差内

Q3 如何报告标准偏差?

许多人报告的平均值和标准偏差如下:“115±10 mmHg”,“方法”部分具有一条脚注或声明,其将第二个值定义为标准偏差。

有人(1*,2*)称,由于标准偏差是一个量化分散的单一值,因此它不应跟在加号/减号之后,而应采用下述方式:”115mHg (SD 10)”。

*参考资料:

[1] Curran - Everett D和Benos D。美国生理学会出版的期刊统计报告指南。《AJP - 胃肠和肝脏生理学》。2004年8月1日;287(2):G307

[2] Ludbrook J。临床和实验药理学和生理学的统计学介绍。《临床实验药物生理学》。2008年10月1日;35(10):1271 - 4;authorreply1274

Prism如何计算标准差?

首先,我们来看下SD如何计算?

  1. 计算每个值与样本平均值之间差值的平方;
  2. 将这些值相加;
  3. 将总和除以N - 1。将其称为方差;
  4. 开平方根,获得标准偏差;

上面这个是一套基本的计算方式,接下来我们逐一看看你可能会有的一些疑惑。

Q1 “为什么是 n - 1?”

为什么在上述第三步中除以n - 1(而非N)?在第1步中,计算每个值和这些值的平均值之差。你不知道群体的实际平均值,只知道样本的平均值。除样本平均值恰好等于群体平均值的罕见情况外,数据将更接近样本平均值,而非实际群体平均值。因此,你在第2步中计算的值可能会比在第1步中使用实际群体平均值时的值小一点(且无法更大)。为弥补这一不足,我们除以n - 1而非n。

但是,为什么使用n - 1?如果你知道样本平均值,以及除了一个值之外的所有值,则可以计算最后一个值必须是什么。统计学家们称存在n - 1 自由度。

Q2 “但我看到方程的分母中是n,而非n - 1啊?”

n - 1方程用于分析数据样本,并希望得到更接近一般结论的常见情况。以此方式计算的SD(分母中为n - 1)是你对总群体SD值的最佳猜测。

如果你只是想要量化一组特定数据的变化,而不打算外推以得到更广泛的结论,则在分母中使用N计算SD。由此产生的SD是这些特定值的SD,但很可能低估这些数值点提取群体的SD。

科学的目标始终是普遍化,因此在分析科学数据时,不应在方程的分母中使用n。我能想到的唯一一个在分母中使用n(而非n - 1)可能有意义的示例是量化检测评分之间的差异。但更好的方法是显示每个评分的散点图,或者频率分布直方图。

Prism始终使用n - 1计算SD。

Q3 "计算SD需要多少个值?"

SD量化的是离散度,所以只有一个值是不行的。那么两个值够不够呢?很多人认为只有两个值也是无法计算SD的。其实不然,当你只有重复(n = 2)的数据时,也是可以正常计算SD方程的。

大家所关心的是,这样的结果是否真的有效?

我们可以用模拟计算来回答这个问题。我们模拟一万个n = 2的数据集,并且每个数据点均从高斯分布中随机选取。由于所有统计检验实际上均以方差(SD的平方)为基础,因此我比较了根据重复数据计算的方差和真正方差。模拟数据的10,000个方差的平均值与模拟数据来源真正方差的差异不超过1%。这意味着根据重复数据计算的SD是对数据离散度的有效评估。其同样可能过高或过低,但也可能距离真SD非常远。

Q4 “如何使用Excel计算SD?”

Excel可以使用STDEV()函数,根据一系列值计算SD。例如,如果你想知道单元格B1 - B10中值的SD,则在Excel中使用以下公式:

= STDEV(B1:B10)

该函数在分母中使用n - 1,计算SD。如果你想在分母中使用N以计算SD(见上文),则使用Excel的STDEVP()函数。

Q5 “SE和SEM是一回事儿吗?”

不是一回事儿!

标准偏差(SD)与平均值标准误差(SEM)之间的差值很容易混淆。主要差异在于:

SD量化了分散 - 值之间的差值有多大;

SEM量化了你对总体实际平均值的了解程度。其考虑了SD的值和样本量;

SD和SEM均在相同单位内--数据的单位;

根据定义,SEM始终小于SD;

随着你的样本变大,SEM变小。这有意义,因为大样本的平均值可能比小样本的平均值更接近真实的总体平均值。在一个巨大样本的情况下,即使数据非常分散,但你也能非常精确地知道平均值的值;

随着你获得更多的数据,SD不会发生可预测的变化。你从样本中计算出的SD是对总体SD的最佳估计。随着你收集更多的数据,你将更精确地评估总体的SD。但你不能预测来自大样本的SD是否会大于或小于来自小样本的SD。(严格来说,这并不正确。其为方差--SD平方--不会发生可预测的变化,但SD的变化微不足道,且比SEM中的变化小得多)

注意:对于你几乎可根据数据计算出任何参数,你可计算标准误差,而不仅仅是平均值。“标准误差”一词有些许模棱两可。上述各点仅指平均值的标准误差。


|| 往期内容推荐 [中国赞]

GraphPad Prism 统计教程 | 置信区间(三)

GraphPad Prism 9 新功能详细说明

graphpadprism平均值分析(GraphPadPrism统计教程)(4)

CN官网 www.graphpad-prism.cn

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页