条件概率
示例:就是事件 A 在另外一个事件 B 已经发生条件下的发生概率。条件概率表示为 P(A|B),读作“在 B 条件下 A 的概率”。
如:根据大量的统计,大熊猫活到十岁的概率是0.8,活到十五岁的概率是0.6,若现有一只大熊猫已经十岁了,则他活到十五岁的概率是多少?
联合概率:表示两个事件共同发生的概率。A 与 B 的联合概率表示为 P(AB) 或者 P(A,B)。
边缘概率:是某个事件发生的概率,而与其它事件无关。边缘概率是这样得到的:在联合概率中,把最终结果中不需要的那些事件合并成其事件的全概率而消失(对离散随机变量用求和得全概率,对连续随机变量用积分得全概率)。这称为边缘化(marginalization)。A的边缘概率表示为 P(A),B 的边缘概率表示为 P(B)。
需要注意的是,在这些定义中 A 与 B 之间不一定有因果或者时间顺序关系。A 可能会先于 B 发生,也可能相反,也可能二者同时发生。A 可能会导致 B 的发生,也可能相反,也可能二者之间根本就没有因果关系。
例如考虑一些可能是新的信息的概率条件性可以通过贝叶斯定理实现。
定义
在同一个样本空间 Ω 中的事件或者子集 A 与 B,如果随机从 Ω 中选出的一个元素属于 B,那么下一个随机选择的元素属于 A 的概率就定义为在 B 的前提下 A 的条件概率。
统计独立性
当且仅当两个随机事件 A 与 B 满足 P(A∩B)=P(A)P(B).
的时候,它们才是统计独立的,这样联合概率可以表示为各自概率的简单乘积。
同样,对于两个独立事件 A 与 B 有P(A|B) = P(A)
以及P(B|A) = P(B)
换句话说,如果 A 与 B 是相互独立的,那么 A 在 B 这个前提下的条件概率就是 A 自身的概率;同样,B 在 A 的前提下的条件概率就是 B 自身的概率。
互斥性
当且仅当 A 与 B 满足 P(A∪B)=P(A)+P(B)
且 P(A∩B)=0
, 的时候,A 与 B 是互斥的。
因此,
换句话说,如果 B 已经发生,由于 A 不能 B 在同一场合下发生,那么 A 发生的概率为零;同样,如果 A 已经发生,那么 B 发生的概率为零。
其它
如果事件 B 的概率 P(B) > 0,那么 Q(A) = P(A | B) 在所有事件 A 上所定义的函数 Q 就是概率测度。 如果 P(B) = 0,P(A | B) 没有定义。 条件概率可以用决策树进行计算。
条件概率谬论
条件概率的谬论是假设 P(A|B) 大致等于 P(B|A)。数学家John Allen Paulos 在他的《数学盲》一书中指出医生、律师以及其他受过很好教育的非统计学家经常会犯这样的错误。这种错误可以通过用实数而不是概率来描述数据的方法来避免。
P(A|B) 与 P(B|A)的关系如下所示:
下面是一个虚构但写实的例子,P(A|B) 与 P(B|A)的差距可能令人惊讶,同时也相当明显。
若想分辨某些个体是否有重大疾病,以便早期治疗,我们可能会对一大群人进行检验。虽然其益处明显可见,但同时,检验行为有一个地方引起争议,就是有检出假阳性的结果的可能:若有个未得疾病的人,却在初检时被误检为得病,他可能会感到苦恼烦闷,一直持续到更详细的检测显示他并未得病为止。而且就算在告知他其实是健康的人后,也可能因此对他的人生有负面影响。
这个问题的重要性,最适合用条件机率的观点来解释。
假设人群中有1%的人罹患此疾病,而其他人是健康的。我们随机选出任一个体,并将患病以disease、健康以well表示:
P(disease) = 1% = 0.01 and P(well) = 99% = 0.99. 假设检验动作实施在未患病的人身上时,有1%的机率其结果为假阳性(阳性以positive表示)。意即:
P(positive | well) = 1%,而且P(negative | well) = 99%. 最后,假设检验动作实施在患病的人身上时,有1%的机率其结果为假阴性(阴性以negative表示)。意即:
P(negative | disease) = 1%且P(positive | disease) = 99%。 现在,由计算可知:
是整群人中健康、且测定为阴性者的比率。
是整群人中得病、且测定为阳性者的比率。
是整群人中被测定为假阳性者的比率。
是整群人中被测定为假阴性者的比率。
进一步得出:
是整群人中被测出为阳性者的比率。
是某人被测出为阳性时,实际上真的得了病的机率。
这个例子里面,我们很轻易可以看出 P(positive|disease)=99% 与 P(disease|positive)=50% 的差距:前者是你得了病,而被检出为阳性的条件机率;后者是你被检出为阳性,而你实际上真得了病的条件机率。由我们在本例中所选的数字,最终结果可能令人难以接受:被测定为阳性者,其中的半数实际上是假阳性。
离散概率分布:均匀 • 伯努利 • 几何 • 二项 • 泊松 • 超几何 • 多项 • 负二项 • 玻尔兹曼 • 复合泊松 • 退化 • 高斯-库兹明 • 对数 • 拉德马赫 • Skellam
• Yule-Simon • ζ • 齐夫 • 齐夫-曼德尔布罗特 • 抛物线分形
连续概率分布:均匀 • 正态 • 指数 • β(贝塔) • β'(第二类) • 柯西 • χ²(卡方) • δ(德尔塔) • Erlang • 广义误差 • F • 衰落 • Fisher的z
• Fisher-Tippett • γ(伽玛) • 广义极值 • 广义双曲 • 半逻辑 • Hotelling的T平方 • 双曲正割 • 超指数 • 逆χ² • 逆高斯 • 广义逆高斯
• 逆γ • Kumaraswamy • Landau • 拉普拉斯 • 列维 • 稳定 • 逻辑 • 对数正态•麦克斯韦-玻尔兹曼•麦克斯韦速率分布律 • 玻色-爱因斯坦
• 费米-狄拉克 • Pareto • Pearson • 极角 • 余弦平方 • 瑞利 • 相对论的Breit-Wigner • 莱斯 • t(学生氏) • 三角 • 第一类Gumbel
•第二类Gumbel • Voigt • von Mises • 韦氏 • Wigner半圆形
其它分布:康托尔分布 • 条件概率 • 指数分布族 • infinitely divisible • location-scale family • marginal • maximum entropy • phase-type • posterior
• prior • 拟概率 • 抽样分配 • singular
多随机变量:狄利克雷 • 肯特 • 矩阵常态分配 • 多变量常态分配 • von Mises-Fisher • Wigner拟概率 • Wishart Ewens抽样公式