中国发生得过SARS的病人又得新冠的概率是多少?

2020年鼠年春节,来势汹汹的新型冠状病毒侵袭中国。湖北武汉疫情大爆发,恰逢春运,扩撒至全国。至今,全中国累积确诊人数截至3月7日80813人,疫情基本得到控制,但离全面战胜还有一段距离。而2003年,同样使我们记忆犹新的SARS病毒感染了全中国约7429人(大陆5327人,香港1755,台湾346,澳门1,死亡721人)。但至今尚未听到一例关于曾经得过SARS的病人,这次又感染了新冠的报道。是SARS病毒的抗体与新冠存在交叉保护表位?还是本身感染的概率就很低呢?

我们把这个问题抽象出来,知达学院的三位学员做出了以下三种回答。你觉得谁是对的呢?

题目

中国发生得过SARS的病人这次又得新冠(至少有1人)的概率是多少?

假设2003年全国总人口14亿,感染人数7000人;2020年全国总人口14亿,感染人数80000人。不考虑其他因素干扰,病人随机分布。

答案一 :=C(14亿,80000)*(7000/14亿)^80000
兔小妈解释:正推理,直接求出答案。14亿人中任意选出80000人得了新冠,每位得了新冠的病人得SARS的概率是7000/14亿,一共80000名。

答案二 :=1-((14亿-7000)/14亿)^80000
猴大运解释:倒推理,先求出得了新冠的病人未得SARS的概率,再求出答案。上次未得SARS的概率是(14亿-7000)/14亿,那么80000名新冠病人上次未得SARS的概率是((14亿-7000)/14亿)^80000。因此,上次得过SARS的病人这次又得新冠的概率是以上答案。

答案三 :=1-P(X=0)=1-C(7000,0)C(14亿-7000,80000)/C(14亿,80000)
糖大宝解释:倒推理,先求出得了新冠的病人未得SARS的概率,再求出答案。使用超几何分布数学模型。在14亿人中有7000人得过SARS,即不合格率为 7000/14亿。在14亿中随机抽80000得了新冠的病人,发现0人得过SARS的概率为C(7000,0)
C(14亿-7000,80000)/C(14亿,80000)。k=0,n=80000,M=7000,N=14亿。

超几何分布定义
产品抽样检查中经常遇到一类实际问题,假定在N件产品中有M件不合格品,即不合格率:

在产品中随机抽n件做检查,发现k件不合格品的概率为:

k=0,1,2…min{n,M}。超几何分布的模型是不放回抽样。
(以上来自百度百科)

对于三个答案的评价
答案一:数据小白—兔小妈的正推理求概率结果是无法一步实现的。正解详见后面的简化题。计算机爆表,无法计算出兔小妈的结果。

答案二:数据思维老师—猴大运的倒推理是放回抽样概率结果。即每一个未得SARS的人每次被抽样上来以后,下一次抽样也可能被抽上来。而实际上在统计累积确诊病例的时候,核算检测复“阳”的人仅被统计一次。计算结果是32.97%。

答案三:数据科学家—糖大宝的倒推理是不放回抽样概率结果。他选择的超几何分布模型很适合这道题目。计算结果是32.97%,和猴大运的一样。结果证明猴大运老师的简化做法是可行的。

理论上只有约1/3的概率会出现这种情况,实际上到目前为止也没有报道说有病人得了SARS又得新冠(我们可以推测这种情况确实没有发生),属于这2/3的情况,是非常合理的。

假设条件有待商榷
但是,实际上这个题目里有很多假设条件都有待商榷:
1. 抽样样本并不是随机分布的。SARS在北京爆发,湖北省得病人数6人,而新冠的病情爆发点在湖北省,得病人数约6.8万。
2. 没有考虑得SARS的人17年间已经死亡的情况。
3. 2003年的人口总数是13亿,而2020年的人口总数是14亿,且人口更替,总体并不是相同的总体。
4. SARS和新冠两者未必是独立事件。新冠病毒的相似度与SARS病毒极高,据报道,SARS病毒的抗体与新冠病毒存在交叉保护表位,恢复期SARS感染者血清可阻止新冠病毒感染细胞,有望推动疫苗研发。

天时 · 地利 · 人和

说到这里,大部分远离学校、远离数学多年的同学们是不是连组合公式都记不起来了呀?

我们先附上组合C的定义及计算公式和基本计数原理,帮大家复习和回忆一下:

组合的定义
从n个不同元素中,任取m(m≤n)个元素并成一组,叫做从n个不同元素中取出m个元素的一个组合;从n个不同元素中取出m(m≤n)个元素的所有组合的个数,叫做从n个不同元素中取出m个元素的组合数。用符号 C(n,m) 表示。

计算公式

C(n,m)=C(n,n-m)。(n≥m)
(以上来自百度百科)

基本计数原理
一、加法原理和分类计数法
1.加法原理
做一件事,完成它可以有n类办法,在第一类办法中有m1种不同的方法,在第二类办法中有m2种不同的方法,……,在第n类办法中有mn种不同的方法,那么完成这件事共有N=m1+m2+m3+…+mn种不同方法。

2.集合关系
第一类办法的方法属于集合A1,第二类办法的方法属于集合A2,……,第n类办法的方法属于集合An,那么完成这件事的方法属于集合A1UA2U…UAn。

3.分类的要求
每一类中的每一种方法都可以独立地完成此任务;两类不同办法中的具体方法,互不相同(即分类不重);完成此任务的任何一种方法,都属于某一类(即分类不漏)。

二、乘法原理和分步计数法
1.乘法原理
做一件事,完成它需要分成n个步骤,做第一步有m1种不同的方法,做第二步有m2种不同的方法,……,做第n步有mn种不同的方法,那么完成这件事共有N=m1×m2×m3×…×mn种不同的方法。

2.合理分步的要求
任何一步的一种方法都不能完成此任务,必须且只须连续完成这n步才能完成此任务;各步计数相互独立;只要有一步中所采取的方法不同,则对应的完成此事的方法也不同。

3.与后来的离散型随机变量也有密切相关。

(以上来自百度百科)