论文共同作者都可以看审稿状态吗(避免论文中常见的统计错误)

论文共同作者都可以看审稿状态吗(避免论文中常见的统计错误)(1)

论文共同作者都可以看审稿状态吗(避免论文中常见的统计错误)(2)

又到了写毕业论文的季节了,有些常见的错误你是一定要避免的!在众多可能犯的错误中,统计错误是常常被忽视但往往也是最致命的,如果审稿人是各中高手,更是无所遁形。因此,在本文中将重点讨论SD与SE,以及重复测量(Replicates)与重复试验(Repeats)的区别,并介绍基本的实验设计原则等相关事宜。

SD与SE的区别

论文共同作者都可以看审稿状态吗(避免论文中常见的统计错误)(3)

mean±SEM? mean±SD? mean±SE?眼花缭乱的误差线表示方法,它们有什么区别呢?究竟在写论文的时候你该用哪一个呢?字面意思来看,SE与SEM(standard error of the mean)是一样的,是标准误;而SD(standard deviation)为标准差。有一种说法是多次重复试验的结果用SE以减少测量误差,而用SD来展示一次实验的重复测量数据。那么这种说法是正确的理解吗?为此,我查阅了相关文献(非某某文库或知道哦~),一起来看看权威的说法吧。

SD值即标准差是一种变异性的量度。当我们计算某一样本的SD值时,实际上是在用SD值估计样本所来自总体的变异度。通常认为对于符合正态分布的数据而言,约有95%的观测值会位于mean±SD之间,而其余的5%的观测值会均匀的分布在mean±SD区间之外。而实际上,SD值作为变异性的量度与数据分布的类型无关。对于任何分布的数据而言,都会有约95%的观测值落于mean±SD之间;尽管其余的5%的观测值可能会集中于某一端。

当我们计算样本的平均值时,通常我们对该特定样本的平均值并不感兴趣;而是对样本所来自总体的个体的平均值感兴趣。穷尽总体的测量通常难以实现,因此我们会通过从抽取的样本中获取信息并据此归纳出总体的平均值得出普适性的结论。但是,样本的平均值会随抽取样本的不同而产生波动,我们称之为“平均值的样本分布”。为此,我们可以用平均值的标准误SE来估计样本的平均值与“平均值的样本分布”的标准差之间的差异。SE也是一种SD,但是如此说起来绕口,理解起来麻烦;实际上我们可以把SE理解为样本平均值的可信度的一种量度。

SE值的大小取决于SD值和样本量的大小。因此,样本量越大,SE值越小;而SD值不会倾向于随样本量的大小而变化。因此,如果我们想展示某一测量的数据分布范围,我们会选择SD值;而如果我们想知道测量平均值的可信程度,我们可以用平均值的标准误SE来评价。故而,在计算置信区间时,SE值是最常用的;在计算P值时也通常会用SE值。

因此,选择SD或SE与重复实验次数无关,而是取决于你想展示数据的分布范围还是估计平均值的可信度。此外,科学实验的数据均应该来自于多个独立重复的样本(重复实验),重复测量的数据只能用于减少测量误差,而不应该直接展示结果中,这一点我会在下一章中详细说明。

最后要说明的一点是,不是所有的数据都适合用平均值 误差线来表示。假如我们每组实验只有3的独立样本(n=3),直接把这三个点用散点图展示出来可能更好。实际上,这已经是一种趋势,不少杂志开始鼓励直接用散点图直接展示原始数据点。

论文共同作者都可以看审稿状态吗(避免论文中常见的统计错误)(4)

重复测量与重复试验

科学实验本质上就是一种抽样调查,你的实验样本是否能反应总体的真实情况决定了你的实验结论的可信程度。为了更好的说明这一类错误,下面先从一个实验案例说起(大家快点来找茬~)。

假设,我们想知道Bdl 基因在HH-CSF刺激骨髓细胞增殖的过程中是否是必需的。为此,我们分别从一只野生型小鼠(WT)和一只Bdl 基因敲除小鼠(Bdl–/–)中分离骨髓细胞;然后,每种来源的细胞各种20个小皿,再分为两组( 每小组10皿),分别给于HH-CSF和溶剂对照处理;最终,通过计数得到了下面的实验数据。

论文共同作者都可以看审稿状态吗(避免论文中常见的统计错误)(5)

然后接下来就是作图了。假如我们只用每组的1号皿作图(见下图A),看起来Bdl基因还是有很大影响的;但是一个数据并不能给出是否具有统计差异等信息。为此,我们用每组前3皿的数据作图(见下图B),这样便可以给出标准误以及P值等统计信息(看起来舒服多了~)。但是为了有显著差异(手动滑稽),我们用所有的数据作图(下图C),这结果如你所愿!遗憾的是,两个柱子的高度差别并不大!于是,我们机智的调整了下y轴的范围,然后就得到了下图D。这时你发现,一个高水平文章里才有的图就跃然纸上了(此图只应NCS里有,灌水杂志何处寻)!

论文共同作者都可以看审稿状态吗(避免论文中常见的统计错误)(6)

那么,这个结果可信吗?你有发现问题吗?如果没有,说明你很可能也犯了类似的错误!

首先,科学实验的数据应该来自多个独立的样本,如果n = 1 那就不是科学。本例中,WT HH-CSF 组和Bdl–/– HH-CSF组虽然各有10个小皿,但是这些细胞只来源于两只小鼠;因此,n实际上等于1。

其次,单一变量原则是科学实验的精髓。本例中我们想考察Bdl 基因在HH-CSF刺激骨髓细胞增殖的过程中的作用,理论上在实验设计时应该保证除Bdl 基因外其他变量相同。然而,考虑到个体的差异,不确定因素太多。因此,每组只取一只小鼠,得出的结果很可能是小鼠个体差异造成的。

然后,统计推断的结论只能应用于实验样本所来自的总体。本例中,我们多次重复测量了一份骨髓细胞悬液对HH-CSF刺激的响应,得出的结论只能是HH-CSF对这一份骨髓细胞悬液的影响;而不能扩展到HH-CSF对所有小鼠骨髓细胞的影响。

最后,重复测量数据虽然不能用于支持统计推断,但是在实验质量控制中发挥重要作用。本例中,多次重复测量一份骨髓细胞悬液对HH-CSF刺激的响应,所得到数据虽不能直接用于得出Bdl 基因在HH-CSF刺激骨髓细胞增殖的过程中是否具有一定的作用;但是这样的重复测量可以有效地避免因实验处理过程中各种不慎操作所带来的错误。

因此,重复试验(Repeats)的样本应该直接来源于你所研究对象的总体以获取独立的实验数据,或者多次独立的重复做你所有的实验。因此,在本例中实验设计应该如下图B,同一基因型选多只小鼠分别取骨髓细胞进行试验;而不能如下图A一样,每种基因型只取一只小鼠。

论文共同作者都可以看审稿状态吗(避免论文中常见的统计错误)(7)

最后,需要重点强调的两点是:重复测量(Replicates)并不局限于最后一步用仪器反复测量了几次(这样仅仅考虑到了仪器的可靠性);重复测量(Replicates)与重复试验(Repeats)是相对的概念,主要取决于你想得出的结论。

例如在用流式抗体检测细胞表面marker时,假如你想知道药物处理后对某细胞系表面某marker表达的影响,你就应该每个处理至少种3个复孔(n ≥ 3),而不能把同一个处理孔的细胞分成3份分别进行染色(尽管你可以这样做以减少实验误差,但这样得到的数据只能算作重复测量);假如你只是想知道流式抗体染色时间对你所用某细胞下的实验有无影响,那就要把该细胞分成多份分别进行流式抗体染色(一个皿的细胞即可),并保证每个染色时间处理下至少有3个样品。

总之,你的重复实验的样本一定要能反应你所得出的实验结论的总体的情况,否则只能算是重复测量。

所以,在做QPCR的时候,每个处理你应该种几个复孔呢?还在用QPCR的检测复孔来展示你的实验结果吗?又如,在MTT实验中每个浓度处理组有6个复孔,这属于重复测量还是重复实验呢?如有任何疑问或纰漏之处欢迎留言讨论和批评指正。

投稿邮箱:tougao@helixlife.com.cn

论文共同作者都可以看审稿状态吗(避免论文中常见的统计错误)(8)

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页