概率和随机（一）

2023-07-09

Word count: 3.6k | Reading time≈ 12 min

随机的魅力

这篇博客的题目是概率和随机，随机性是一种客观存在现象，与生俱来具有一种未知性和神秘感，描述和处理随机性是多年以来人们不断追求的目标。如果有人说他能完全解决随机性引发的问题，那可能他就是科幻电影或者神话传说里类似先知的角色了。与其说解决随机性问题，不如说刻画随机性现象更准确一些，现实中我们只能通过对随机性进行精准刻画来将随机性考虑在内，以备不时之需。所以本篇博客后续的内容和后续的博客也是围绕随机性的刻画描述来展开的。

自动化的课程培养方案中有非常多关于统计、概率和随机的课程，能选的课差不多我都选过，包括有本科孙德龙老师讲授的概率论，研究生阶段晁颖老师讲授的数理统计、程晓青老师讲授随机过程和翟桥柱老师讲授的泛函分析。甚至连思修老师也曾经提过一个观点：跟任何人交流其实是在和他过往的经历打交道。这也是典型的贝叶斯观点，我也非常认可。但由于我的学艺不精浅尝辄止，这些课程的知识域映射到我的脑子里"almost everywhere"只剩下一些碎片化的点，比如能记起来概率的定义、随机变量的定义、贝叶斯和频率学派的争论、概率测度空间等等，但概念之间的关联却毫无印象，没有形成一个完整的知识体系。

在现阶段的学习中整理之前学过的知识，就当是一种记录和复习了，本篇博客主要记录三类内容，第一部分是概率的发展历史，我一直对数学史有着一些独特的兴趣，可能是因为数学内容如听不懂又比较喜欢，所以也只能关注关注数学史了。第二部分是一些概率的基础内容，第三部分是贝叶斯学派的基本思想，通过对比和举例将以前学过的知识具象化和串联起来。后续的博客可能会持续更新一些描述和处理随机性相关的方法。

概率的发展历史

概率起源于15世纪到16世纪意大利的一数学家对某些靠运气的游戏中的特定概率进行计算，但概率论起源于17世纪中期，1654 年，一个名叫 A.G.C. de M´er´e 的法国贵族写了一本小册子，名叫《De Ratiociniis in Ludo Aleae》(可译为《关于机会游戏的计算》), 这是关于概率论的第一本书。

18世纪期间的主要贡献者是 J. Bernolli (1654—1705) 与 A. de Moivre (1667—1754). Bernoulli 在概率论领域的代表作是《Ars Conjectandi》(可译为《猜测的艺术》)，De Moivre 是一位法国数学家，但是大部分时间他住在英国. De Moivre 开创了概率论的现代方法：1718 年发表了《The Doctrine of Chance》. 在此书中统计独立性的定义首次出现.

19世纪个期间的主要贡献者是 P. S. M. Laplace (1749—1827), S. D. Poisson (1781—1840), C. F.Gauss (1777—1855), P. L. Chebyshev (1821—1894), A. A. Markov (1856—1922)与 A. M. Lyapunov (1857—1918). 这个时期的研究主要围绕极限定理展开.

20 世纪可称为概率论发展的现代时期，本时期开始于概率论的公理化.在这个方向上的早期贡献者有 S. N. Berstein (1880—1968), R. von Mises (1883—1)与 E. Borel (1871—1956). 1933 年，俄罗斯著名数学家 A. N. olmogorov出版了他的伟大专著《Foundations of the Theory of Probability》. 其中，他为概率论建立了目前广泛采纳的公理化体系.

概率的公理化定义

概率公理化定义中的概率空间和测度空间定义非常相似，也有着非常明显的对应关系，这也是理解概率非常关键的过程。概率是度量“事件发生可能性”的大小，但不是每个事件都可以定义其概率，因此需要首先描述样本和事件。（没有概率的事件对应不可测集，涉及选择公理等，暂不举例）

概率空间由三部分构成：

$\Omega$为样本空间，是所有可能出现的结果的集合
$\mathbf{F}$为事件空间，是所有事件的集合，事件是样本空间的子集，基本事件是样本空间里的元素。
$\mathbf{P}$是概率函数，是从事件空间到[0,1]实数轴上的映射。

随机变量我理解是本科概率论最难最核心的地方，尤其是一些随机变量函数分布的求解，类似于通过$X$概率密度求解$X^2,1/X,(X-\hat{X})$的概率密度函数，需要一些类似于积分换元的变换技巧。随机变量在本科课本的定义中是分为了离散型和连续型随机变量，理解为事件到实数的映射，离散型是在有限个可能取值或可数个可能取值，连续则是在若干个区间取值。离散型通常考虑$P{X=a}$发生的概率，连续型则是$P{a<X<b}$的概率，同时连续性随机变量的概率密度函数被称为 probability density function。

实际上测度论是概率论的理论基础，概率的很多概念都和测度论中相对应，可以理解测度论是一个抽象类，概率论是其中的一个实例。

概率度量的是事件发生的可能性，事件对应到测度里面就是集合，需要考察事件的全体，对应到测度论就是集合系，所有类似的对应关系大致如下表，

概率空间	测度空间	备注
事件	集合
样本空间	全集
事件域	集合系	集合系必须符合Borel $\sigma-$代数定义
概率函数	测度函数	从事件域中的事件映射到实数/从$\sigma-$代数中的集合映射到实数
随机变量	可测函数	将概率空间三元素映射到实数空间上

事件的概率就涉及到事件的组合运算，对应集合的交、并、差、余，所以必须保证集合可列次运算后仍不能超出全体范围。这样的集合系被称为$\sigma-$代数，$\sigma-$代数的基本概念是：

集合系包含全集；
每个集合的余集在集合系；
任意可列个集合的并集在集合系。

满足这三条基本定义就可以推出：空集，可列次交、并、差、上限集、下限集运算后都在集合系。

随机变量对应的就是实值可测函数。建立了样本空间（事件全体）到实数轴的映射。同时基本事件经过复杂运算生成的事件，映射到实数轴就是实数轴上Borel $\sigma-$代数中的集合。因此度量事件发生可能性的大小就只需要度量“实数轴上Borel$\sigma-$代数的集合”就可以。

随机变量的测度角度定义如下：设$(\Omega,\mathbf{F},\mathbf{P})$是概率测度空间，若对实数轴上的Borel$\sigma-$代数中任一集合B，都有${\omega\in \Omega:X(\omega)\in B}\in \mathbf{F}$，（也可以理解为${\omega\in \Omega:X(\omega)<=x}\in \mathbf{F},\forall x$）则称$X(\omega)$为随机变量，记作$X$。

随机变量就是建立了“随机事件”到“实数轴上Borel $\sigma-$代数”的一种对应，并且保证了建立了这种对应的随机事件都是可以定义概率测度的。

贝叶斯观点

“亡羊补牢、前车之鉴、引古证今”，“苟日新，日日新，又日新”这一系列传统成语和名言中都蕴含着一个道理，那就是从已知的事件中学习知识。从经验中能得到什么教训？如何才能认识这个世界？正是贝叶斯理论研究的内容。这一小节主要描述三个部分，从三门游戏引出贝叶斯的应用，在复习贝叶斯推断中常见的两类错误的概念，最后介绍贝叶斯学派和频率学派的观点差异。

三门游戏

源于很早之前的娱乐电视节目，面前有ABC三扇门，其中一扇门背后放着一辆轿车，如果门后面有轿车，就归你所有。

显而易见中奖概率是$\frac{1}{3}$，但有意思的是，做出选择后，主持人会在另外两扇门中打开一扇门，打开的这一扇门背后一定没有汽车，现在会有一个机会要不要改变主意，还是坚持最初的选择。

如果不换的话，中奖概率依然是$\frac{1}{3}$，换了之后中奖概率就变成了$\frac{\frac{1}{3}}{\frac{1}{2}}=\frac{2}{3}$，所以从贝叶斯的观点来说换的话可以提升中奖概率。

频率观点则是做大量实验，模拟一万次的情况看看各自中奖数目是多少。当然经过实验后换门的概率确实上升到了$\frac{2}{3}$。

从总体来看贝叶斯和频率学派结果是一样的，但如果现场主持人在打开B门的时候有一些犹豫，如果B门后面没有奖品主持人会毫不犹豫的打开B门，又或者犹豫B还是C的时候说明两个门后面都没有奖品，所以A的概率大一些不要换。又或者电视台的表弟告诉你主持人都有预案，根据每个选项做出选择。面临这种复杂的情况频率学派无法针对每一次都模拟大量实验，而贝叶斯方法提供的是一种随着信息不断增多而不断调整自己策略的方法。

第一类错误和第二类错误

决策	阳性	阴性
阳性	真阳性TP	假阳性FP
阴性	假阴性FN	真阴性TN

在评价一种检测方法时，人们经常用的两个概念是灵敏度（sensitivity）和特异度（specificity）。如果用TP、TN、FP、FN分别表示真阳性、真阴性、假阳性、假阴性样本的个数。

灵敏度Sn=$\frac{TP}{TP+FN}$:真正的阳性样本中有多少比例能被正确检测出来（方法能够把阳性样本正确识别出来的能力）
特异度Sp=$\frac{TN}{TN+FP}$:真正的阴性样本中有多少比例没有被误判（方法能够把阴性样本正确判断出来的能力）

第一类错误率用$\alpha$表示，指真实的阴性样本中被错误判断为阳性的比例；第二类错误率用 $\beta$表示，指真实的阳性样本中被错误判断为阴性的比例。第一类错误可以理解为误报，第二类理解为漏报。

统计推断或者贝叶斯决策通常要同时考虑这两类错误，通常限定一类错误为指定值，另一类错误率最小。

Frequentist and Bayesian

频率学派和贝叶斯学派对于“在应用中，某个随机事件的概率该如何被赋值？”这个问题有著不同的看法：频率主义者根据随机事件发生的频率，或者总体样本里面的发生的个数来赋值概率；贝叶斯主义者则根据未知的命题来赋值概率。

贝叶斯学派对概率的解释可以看作是命题逻辑的扩展，可以使用假设进行推理。同时贝叶斯的观点是给一个假设（hypothesis）分配一个概率（probability），而在频率学派的推理中，一个假设通常是在没有分配概率的情况下进行测试的。

经常会有人说频率是客观的，贝叶斯是主观的概率，但事实上贝叶斯是基于一系列主观先验的客观推理，逻辑过程是非常客观的。如果频率学派是客观概率，但频率的前提假设是一切信息全知，这也是一个很强的主观假设。频率法和贝叶斯对信息是否全知的预设不同，它们解决的不是一类问题。

频率法适合解决普遍的通用的群体性的问题，比如生育率，飞机失事率等，最终获得普适概率。而贝叶斯适合解决变化的、个体的、无法重复的概率问题，可以描述随着信息知识更新过程中某个假设的状态。并且通常可以将两个方法结合，使用频率获得先验概率，在使用贝叶斯计算每个证据的权重。

总的来说，两种学派的主要差别在于探讨「不确定性」这件事的立足点不一样，频率学派试图对「事件」本身建模，认为「事件本身就具有客观的不确定性」；贝叶斯学派不去试图解释「事件本身的随机性」，而是从观察事件的「观察者」角度出发，认为不确定性来源于「观察者」的「知识不完备」，在这种情况下，通过已经观察到的「证据」来描述最有可能的「猜的过程」，因此，在贝叶斯框架下，同一件事情对于知情者而言就是「确定事件」，对于不知情者而言就是「随机事件」，随机性并不源于事件本身是否发生，而只是描述观察者对该事件的知识状态。频率法和贝叶斯方法本身都是客观的，在使用的过程中都或多或少产生一些主观性。

参考材料

[1] https://zhuanlan.zhihu.com/p/23629928

[2] https://www.zhihu.com/question/43721834

[3] http://www.tup.tsinghua.edu.cn/upload/books/yz/058550-01.pdf

[4] https://www.zhihu.com/question/389629204/answer/1171421706

[5] https://en.wikipedia.org/wiki/Bayesian_probability

Donate

Copyright： Copyright is owned by the author. For commercial reprints, please contact the author for authorization. For non-commercial reprints, please indicate the source.