p值的十大误解(P值要失宠了)

p值的十大误解(P值要失宠了)(1)

p值的十大误解(P值要失宠了)(2)

1月22日,美国政治学顶级学术期刊《政治分析》在他们的官方twitter上宣布从2018年开始的第26辑起禁用p值。消息一经传出,立刻在学术界引起广泛讨论。其实废除P值在统计学界或学术界早已不是新鲜的话题,类似的事情,近年来时有发生。例如2015年2月《基础和应用社会心理学杂志》也出现了禁止使用P值的决定。而且,近年来随着贝叶斯学派的兴起,已经有不少统计学家呼吁学术界使用贝叶斯方法补充甚至替代当今以P值为中心的方法。那么,为什么这么多人呼吁禁用P值,P值到底是什么,是怎样产生的,有哪些存在的问题?今天小编在此给大家简单做一梳理。

P值的历史

首先说说P值的历史,P值的历史首先要追溯到1770年,由法国数学家,物理学家拉普拉斯提出。拉普拉斯统计了近50万出生人口的数据,计算了一个被称作P值的量,来确认男婴的出生率高于女婴。不过拉普拉斯没有解释这个P值的含义。真正统计意义的P值最先由Karl Pearson在卡方检验中引入,但是将P值发扬光大的是Ronald Fisher。

Fisher是现代统计学的奠基人,我们耳熟能详的方法如极大似然法,确切概率法,方差分析,实验设计以及矩估计都是他提出的。Fisher提出了显著性检验,在其中引入了P值,并将P值作为一种判断数据在传统意义上是否显著的非正式方法。他的基本思想是:研究者首先提出无效假设,在无效假设成立的情况下,计算P值,通过判断P值的大小来决定是否拒绝原假设。如何判断P值大小呢?他提出了一个significance level,即显著性水平,并将其作为P值大小的门限。

这里需要澄清的是,Fisher提出的假设检验理论中只有无效假设和P值,而且显著性水平也不是指我们通常所说的α。α是由另外两位统计学家引入的,即Jerzy Neyman和Egon Pearson。这两个人也是现代著名的统计学家,提出过两类统计错误,似然比检验,区间估计等理论,对统计学理论的发展做出了重大贡献。二人建立了另一个假设检验学派,即N-P学派。在这一学派里,引入了备择假设的概念,但没有涉及P值。该学派将α定义为犯一类错误的概率,也将其命名为显著性水平。通过α来计算拒绝域的边界(可以理解为查表得到的临界值),如果样本的观测值落入拒绝域,就拒绝无效假设。可以看到Fisher是通过P值来进行推断的,而N-P学派是通过临界值来进行推断的。

上世纪两个学派针对假设检验理论曾经展开激烈的争论,如Fisher认为N-P学派混淆了显著性水平的概念,N-P学派则不承认P值。在样本容量不同时,两个学派都可能得出不同的结论,但是N-P学派能够提供相应的统计功效,因而相应的理论体系更为完善一些。当今统计学界将两派观点进行了融合,将Fisher提出的显著性水平等同于α。通过对比p和α的大小,得出是否拒绝无效假设的结论。但需要明确的是,这并非两个学派的初衷。

p值的含义

了解了P值的历史,我们来谈谈P值的含义。首先谈一下假设检验的基本思想。假设检验同时运用了反证法和小概率思想。首先提出无效假设,然后看在该无效假设成立的前提下,出现当前事件是否是一个小概率事件,如果是一个小概率事件,我们就有理由拒绝无效假设,否则没有理由拒绝无效假设。我们往往将小概率事件的标准定为α=0.05,称为显著性水平,也是犯一类错误的概率。通过对比P和α的大小来做出统计推断。

P值的准确定义是这样的:P值是无效假设成立的条件下,出现统计量目前值以及更极端数值的概率。这里首先要明确P值是一个概率,是基于某种假设条件下的概率值。其次要明确的是,P值不是取某个具体数值的概率,还要包括更极端的情况,这个更极端要根据无效假设来设定。更准确的说,P值是一个累积概率概率,而非概率密度。很多同学可能不能理解P值为什么是累积概率?下面的例子也许能解答大家心中的疑惑:

假设有一枚硬币,我们想知道它是否是均匀的,如果是均匀的,出现正反两面的概率均为0.5。于是我们就做抛硬币实验,假设我们抛了100次,出现了40次正面。从这个数字上看,我们觉得硬币是均匀的可能性还是比较大的,但还是做检验假设看一下。基于假设检验的基本思想,我们做出这样的假设:

H0:硬币是均匀的,π=0.5

H1:硬币是不均匀的,π≠0.5

我们可以计算在H0成立的情况下,出现40次正面的概率。根据二项分布公式有:

p值的十大误解(P值要失宠了)(3)

也就是说,100次抛硬币实验中,出现40次正面的概率是0.01084387。可以看到这个数值很小,甚至小于0.05。如果仅用这个概率值做判断,我们会得出下面的结论:在H0成立的情况下,在100次抛硬币的实验中出现40次正面的概率是0.01084387,因为取值小于0.05,这是一个小概率事件,因此可以拒绝原假设,也就是认为硬币不是均匀的。这样的结论正确吗?当然不正确,首先这个结论和我们的直观感觉就不符。但是问题出在哪呢?我们知道,在100次抛硬币实验中,出现正面次数的可能有0,1,2,3……100共101种情况,经过简单计算可以发现,每种情况的出现的概率值都很小,但是累积概率为1。如果用单个概率值来判断是否是小概率事件,从而判断是否拒绝原假设,这是不合理的。因为我们的目的是做统计推断,用样本数据来推断总体,对我们决策有帮助的不是统计量取值的概率,而是在零假设前提下出现当前统计量是否足够“极端”。我们应该计算的是“极端”情况的概率,如果足够“极端”,我们才有理由拒绝无效假设。如果还觉得不好理解,想想日常生活中自己是怎么判断的呢?是不是下面这样呢:

  • 如果正面或者反面出现的次数为45~55,我们就有相当大的把握认为硬币是均匀的;

  • 如果正面或者反面出现的次数为31~44,我们对硬币的均匀性产生了怀疑;

  • 如果正面或者反面出现的次数为10~30,我们就相当怀疑硬币的均匀性;

  • 如果正面或者反面出现的次数为0~9,我们非常怀疑怀疑硬币的均匀性。

这是我们日常生活中的判断逻辑。取值越“极端”,我们越认为不可能发生。我们并不是以某一个具体取值来做判断。相反,我们会划定一个区间,通过区间来进行判断。P值也是这样,也是划定一个区间,这个区间是累计概率。上面例子中的,无效假设下,理论上应该出现50次正面,现在出现了40次正面,相对于50次,更极端的情况就是出现39次,38次,37次……。因为是双侧检验,更极端的情况还包括出现60次,61次,62次……,计算二者的累积概率,就是P值。经计算这一结果为P= 0.05688793>0.05,这不是一个小概率事件,所以不拒绝原假设。

上面提到,是否“极端”要根据无效假设来设定。我们的例子中H0:P=0.5,“极端”情况出现在双侧。如果我们的无效假设是H0:P<=0.5,更极端的情况就出现在单侧,应该是右侧,即出现41次,42次,43次……的累积概率,这一概率值是0.971556,结论为不拒绝无效假设。如果无效假设是H0:P>=0.5,更极端的情况出现在左侧,即出现39次,38次,37次……的累积概率,这一数值为0.02844397<0.05,结论为拒绝无效假设。

清楚了P值的计算,还要正确P值的含义。P值只基于当前样本数据得出的一个统计量,用于反应当前样本差异有无统计学意义,这也仅仅是统计结论,而非专业结论。真正的判断更多需要结合专业知识。

P值的问题

了解了P值的计算和含义,那么P值存在哪些问题呢?

P值常常被误用。很多人将P值神圣化了,认为P值决定一切。其实无论是Fisher最初提出的假设检验理论还是将两个学派理论融合后的理论,P值从来没有被证明可以用来接受某个假设,它只是提供一个概率值,帮助人们做出相对安全的统计决策,但这样的决策不是绝对正确的。即使是拒绝假设,也是基于某个样本得出的结论,当样本变动时,结论很可能也会变动。因此在很多科学研究之中,P值统计学显著结果不能重现。这是P值与生俱来的缺陷。P值误用还有另一种情况,很多人未能正确理解P值,而将P值看做是效应(或者差异)的大小,实际上P值只能判断效应(或者差异)有无统计学意义。效应大小有专门的统计量来衡量。

P值受样本量影响。如果样本量很大,两组数据之间只要有很小的差距就能使统计量达到显著的水平(参考t检验公式,t值与样本量的平方根成正比,当样本量很大时,t统计量很容易达到显著)。这时,如果有轻微的系统误差,有可能就使原本没有差异的样本之间达到显著。因此,也有人建议,在样本量大时,应该减小p值。

P值常常被滥用,在当前几乎所有文献中,任何说明研究有显著意义的结果都要用P值来说明。因此导致了许多研究者在结果不显著时,通过删除数据,增加样本量或者其他手段来强行凑出P<0.05,从而导致很多假阳性的结果。这是P值最受人们诟病的地方。

鉴于P值存在的种种缺陷,统计学家已经提出了不少纠正方法。比如有统计学家提出在报告P值的同时中提供效应量和置信区间的相关数据。这些数据可以反映P值无法反映的信息,也就是效应的规模及其相对重要性。也有统计学家还呼吁使用贝叶斯法则的方法替代P值。这一法则诞生于18世纪,其思想是在获得后验分布后,直接计算原假设H0和备择假设H1的后验概率,然后计算二者的比值来进行判断。贝叶斯学派的假设检验方法有其优势,但是也存在一些问题,如先验信息的选择较为主观,后验概率的计算在高维情况下比较困难等。还有一些人则赞成一种更普遍的方法,即鼓励研究人员对同一套数据用多种方法进行分析。 但无论是采用哪种方法,目前都没有得到普遍性的认可。

因而,在还没有较好的解决方案之前,小编认为,《政治分析》贸然决定废除P值似乎还是草率了些。P值的提出毕竟已有百年,根基深厚,不能因为存在一些问题就全盘否定。已经而且从小编看来,所谓P值的缺点很大程度上是研究者人为原因造成的,与其这样废除P值,不如教导研究人员正确认识P值,正确使用P值,这才是做科研的正确姿态。


【医学方】来自于“医学人”,始终致力于服务“医学人”,将最前沿、最有价值的临床、科研原创文章推送给各位临床医师、科研人员,关注【医学方】头条号,更多临床和科研相关的实用培训课程等着你哦~

【医学方】已推出【医学统计学精品公益课程】、【医学方R语言快速入门与数据清洗】、【R语言可视化及作图】、【GEO|TCGA|Oncomine数据挖掘教程】等视频教程。可登陆网易云课堂,搜索“医学方”查询

p值的十大误解(P值要失宠了)(4)

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页