条件概率一定存在吗(条件下的概率六)

前提条件:度量随机性的新方法。

到目前为止,我们讲的和概率有关的随机试验都是独立的,即前后不相关。但是世界上很多随机事件的发生是彼此相关的,比如今天的天气就和昨天的天气有关;在一句话中,某个词是否出现,和上一个词不仅相关,而且关系极大。同样一个随机事件,在不同条件下发生的概率,差异是巨大的,因他们用一种新的度量随机性的方法,将随机事件发生的条件也考虑进去。

一、前提条件:条件对随机性的影响。

概率确定的随机事件,在不同条件下发生的可能性常常会有巨大的变化,我们不妨先来看一个真实的例子,体会一下条件对概率的影响。

1.被哈佛大学录取的概率问题和中国大学完全看分数录取不同,美国顶级私立大学的录取有很大的随意性,因为平时成绩(从九年级到十二年级第一学期的平均分)和标准考试成绩,只不过是被考察的十多个维度中的两个维度而已,其他的维度有一大半是主观的,比如学生性格可能对其学生带来的益处,这完全依照审核材料的人的主观判断,在中国,像清华北大这样的名校录取时有很大的确定性一一你少一分也不行,但是在美国,像哈佛这样的大学,能否录取几平就是一个随机事件。美国甚至有这样的笑话,说哈佛负责录取的工作人员头一天晚上把该录取学生的材料在了一起,把该拒绝学生的材料放在了另一边,但是没有做标识,到了第二天,他完全分不清哪一些是该录取学生的材料了。这虽然是一个笑话,但说明了录取过程中的随机性。那么被哈佛录取这个随机事件发生的概率是多少呢?2009到2019年的10年间,这个概率在5%一6%浮动一一每年录取的人数基本上是常数,但是分母,也就是申请者人数变化较大。

接下来的问题是,一所一流的高中(类似中国的重点高中)的某个学生申请哈佛,是否有5%左右的机会被录取呢?或是说有100个学生申请哈佛,是否会有5个左右的学生被录取呢:答案看条件而定。各种影响录取结果的条件,至少可以分为三个维度。

首先,要看100个学生是提前申请还是正常申请。

美国绝大部分名校允许学生报一所提前申请的大学(称为EA或者ED,通常在11月底之前要完成申请)。比如,你可以提前申请哈佛。或者耶鲁,但是不能同时申请这两所学校。当然,对于正常申请(简称RA)则没有限制,你爱申请多少所就申请多少。2019年哈佛一共录取了1950名学生,录取率只有4.5%(43330人申请),这是它的历史最低水平。但是,提前申请的人,录取率则高达13.4%(6958名提前申请者中的935人被录取)。显然要高得多。在3632名正常申请者中,只录取了1015人,录取率只有2.8%。也就是说如果提前申请,被录取的概率要比正常申请高将近4倍。为什么美国大学喜欢招收提前申请者呢,因为在美国,每一个学生可能会同时被很多所大学录取,而他只能接受一所大学的录取,剩下的全作废,这样就白白浪费了大学宝贵的录取名额。而提前申请,一且被录取后,大部分学生会接受录取通知书(有些大学会要求学生必须接受,并且自动终止其他大学的申请过程),放弃申请其他大学。

这样学校能保证录取一人来一人。因此,美国所有的名校,提前请者的录取率都要比正常申请者的高得多。

如果把被(哈佛)录取这个随机事件用A来表示,提前申请这件事用B来表示,当然,正常申请对应的就是:

条件概率一定存在吗(条件下的概率六)(1)

,我们已经知道A发生的概率P(A)=4.5%,提前申请者被录取的概率,就是在B这个条件下,事件A发生的概率等于13.4%,我们把它写成P(AlB)=13.4%,类似地,在B不发生的条件下,事件A发生的概率等于28%,即:

条件概率一定存在吗(条件下的概率六)(2)

回到前面的问题,如果那所中学100名申请者都是提前申请,应该会有5个甚至更多的学生被哈佛录取。但如果是正常申请,通常被录取的人会少于5人,甚至可能一个都没录取。从这个例子可以看出,在不同条件下,一个随机事件发生与否,概率会差很大。

其次,要看“是否为特定校友的孩子”。条件概率的条件可以有很多种,比如哈佛等大学一直会照顾特定校友2的子女,根据全国公共广播电台(NPR)的报道,这群学生被录取的概率接近34%(2009—2015年),而同时期总的录取概率只有5.9%,差出5倍左右。我们假设这个条件为C.根据全国公共广播电台的说法,我们可以得到这样的结论:

条件概率一定存在吗(条件下的概率六)(3)

也就是说,如果我们前面说的高中有学生的父母都是哈佛毕业生,那么100个申请者被录取5个是非常有可能的,否则,可能性其实很小。事实上,硅谷地区有一所高中,很多学生都是斯坦福校友的孩子,这所高中的学生每年被斯坦福录取的人非常多,是被其他名校录取的人的好几倍。

再次,要看学校的地理位置,这个条件我们后面再分析。

通过对上述两个条件的分析,我们已经看出要想对一个随机事件发生的概率作出准确的估计,就需要考虑它发生的各种条件。

今天我们大部分人说到概率时,都是泛泛地在谈可能性,而没有细地考虑各种条件,以至于自己的感觉和结果会相差甚远。很多人至会觉得明明是大概率的事件却没有发生,小概率的事件却经常发生。这其实是忽略了条件的结果。

2.条件概率的计算公式。

既然条件概率很重要,那么怎么计算条件概率呢?我们不始回顾一下上一章中所讲到的对概率估算的方法,即用一个随机事件A发生的次数#(A),除以总的试验次数#。

根据大数定理,当#足够大的时候,#(A)/#→P(A)。在统计中,通常会将#(A)/#称为随机事件A发生的相对频率,记做f(A)。我们通常会认为P(A)=f(A)当#足够大之后,我们有时也简单地写成:

P(A)=f(A)=#(A)/#。式1.

在计算条件概率P(A|B)时,我们要考虑当条件B发生了#(B)之后,随机事件A在B发生的条件下发生了多少次,我们假定它为叫#(A,B)次。于是,我们可以把#(A,B)/#(B)定义成条件B下A发生的相对频率f(A|B).当#(A,B)足够大的时候,就有:

P(AIB)=f(Al B)=#(A, B)/#(B) 式2

在前面的例子中,被哈佛提前录取的人数935就是#(A,B),而提前申请的人数6958,就是#(B),它们的比值,就是条件概率P(A\B)。#(A),#(B)、#(A,B)和总数#的关系,我们可以用下图来表示。

条件概率一定存在吗(条件下的概率六)(4)

图1

上图样本总数样#、随机事件发生的次数就是#(A)、条件发生的次数是#(B)以及条件和随机事件同时发生的次数#(A,B)之间的关系。

如果我们把式(2)的右边分子和分母同时除以样本总数就得到下面的等式:

条件概率一定存在吗(条件下的概率六)(5)

式3

分母#(B)/#,B本身的概率P(B),而分子#(A,B)/#=则是一种新的概率一一随机事件A和条件B和同时出现的概率P(A,B),我们称之为A和B的联合概率分布。于是,式(2)就可以重写成

条件概率一定存在吗(条件下的概率六)(6)

式4

这个公式其实才是条件概率原本的计算公式,只是它不如式(2)形象,不容易理解,因此从(2)推导出(4)。

现在,对于一个随机事件A,我们有了三种概率:没有任何限制条件一般意义上的概率P(A),它在条件B发生后才发生的条件概率P(AlB),以及它和B一同出现的联合概率P(A,B),这三种概率彼此是有联系的,我们通常可以其中两种得到第三种,比如我们将式(4)换一种方式表述,就得到下面的公式

P(A,B)=P(AIB)*P(B)。 式5

利用这个公式,我们可以从条件概率P(AlB)和条件本身发生的概率P(B)计算出联合概率P(A,B);当然,也可以从联合P(A,B)和条件概率P(AlB),倒推出一般的没有条件的概率P(A)。

我们不妨通过下图来看看联合概率P(A,B)和概率PA之的关系。

条件概率一定存在吗(条件下的概率六)(7)

图2

图中概率P(A),条件的概率P(AlB),以及联合概率P(A,B)的关系。

图2中随机事件A发生的概率P(A)其实包含两部分:一部分是A和B同时发生下的联合概率P(A,B),另一部分是A发生了但是B没有发生的概率:

条件概率一定存在吗(条件下的概率六)(8)

。由此我们可以得到下面的等式:

条件概率一定存在吗(条件下的概率六)(9)

式6

这就从联合概率分布得到一般的概率分布。接下来,我们将式(5)和式(6)合并,就得到概率和条件概率之间关系式:

条件概率一定存在吗(条件下的概率六)(10)

式7

上述两个公式警示我们在使用概率时,不能将某个条件下发生的概率和一般的概率相混淆,因为前者只是后者的一部分,而后者还包括那个条件没有发生时的概率。在下一节,我们将通过一些实例进一步说明一般概率、条件概率和联合概率的差异。从这些例子中大家可以看到条件对结果的影响,这样就清楚在什么场合该用什么概率了。

本节思考题:

一个人的某种生理指标A检测如果呈阳性,这个人可能染上了一种疾病B,某医院检测了1000个人,有240个人的检测结果呈阳性。经过进一步确认,这1000个人中有160个人患了疾病B,其中有150个人指标A的检测结果呈阳性。请问:

1.如果某个人检测结果为阳性,他其实没有染病的概率是多少?

2.如果某个人的检测结果为阴性,他其实染病的概率是多少?

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页