使用litstudy进行文献自动分析

使用litstudy进行文献自动分析

采集式学习?

由于某学院中期报告的要求,采集式学习不得不进入同学们的生活,报告要求、ppt要求、评分准则都与采集式学习的质量有关:

(4)结合项目实践和研究需要,是否开展了采集式的学习,对实践和研究是否提供了有效的支撑;

采集式学习

文献批量自动分析

某些综述类论文为了提升调研论文的说服力,经常会展示文献调研的算法,在github上调研也发现了一些好用的自动文献整理和文献分析工具,比如Litstudy。该仓库基于python开发,主要有五个特性:

  • 从不同来源的科学文件中提取元数据。组合来自不同来源的数据,以标准化的接口呈现数据。
  • 过滤、选择、删除重复数据和注释文档集合。
  • 计算和绘制文档集的通用统计信息,例如关于作者、地点和出版年份的统计信息。
  • 生成和绘制各种书目网络作为交互式可视化。
  • 使用自然语言处理的主题发现允许自动发现热门主题。

该仓库具体支持的文献来源如下表所示

Name Title Authors Venue Abstract Citations References
Scopus
SemanticScholar * (count only)
CrossRef * (count only)
DBLP
arXiv
IEEE Xplore * (count only)
Springer Link * (count only)
CSV file
bibtex file
RIS file

同时仓库也提供了一个Jupyter应用案例

该仓库的可视化结果非常适合我们文献调研汇报工作和PPT汇报中绘图,安装方便上手简单,希望能帮助到有开题汇报或者中期汇报需求的同学。

参考

[1] Heldens, S., Sclocco, A., & Dreuning, H. litstudy [Computer software]. https://doi.org/10.5281/zenodo.3386071

等不等公交车?

等不等公交车?等多久公交?

如果现在我们在公交车站等了一小会公交车了但公交车还没来,我们是继续等公交车呢还是打车走人。这个问题可能很简单,已经等了这么久了再等等吧,那如果我现在等了半小时还没来呢?又或者说等多久公交车最合适,等不到就打车走人。昨天下午在公交车站等车等了半小时的我陷入了沉思。。。

问题描述

为了得到一个等公交的策略,首先我们需要对公交车到达这个问题进行。首先会想到随机过程中描述离散时间到达的泊松过程,泊松过程符合以下标准:

  1. 事件是相互独立的。一个事件的发生并不影响另一个事件发生的概率。
  2. 平均速率(每个时间段的事件)是恒定的。
  3. 两个事件不可能在同一时间发生。

在随机过程课程中印象比较深对是独立增量平稳增量,如果一个随机过程有独立增量和平稳增量的前提,就可以推出来是泊松过程。显然公交车可以进行这个假设,两辆公交车到达事件之间可能有一些联系吧(交通绿波这种),但是大致可以忽略不计;平稳增量过程显然,因为每号线公交车有一个平均班车时间。所以将公交车的到达时间构建成泊松过程。

现假如我在阿房宫公交站,现在有三种路线:

  • 公交A:平均意义下30分钟一趟,路程时间27分钟,2元。
  • 公交B:平均意义下15分钟一趟,路程时间45分钟,2元。(由于需要腿一段路比较累,按照10元)
  • 打车:随叫随到,路程时间10分钟。花费15元左右。

显而易见我有四种乘车策略:

  1. 死等公交A,等到时间后打车。因为公交A直达,并且便宜,但是公交A三十分钟一趟比较慢。
  2. 死等公交B,等到时间后打车。因为公交B班车快,也很便宜,但是体验不佳,得走好一段路。
  3. 哪个公交先到做哪个,等到时间后打车。A,B谁先到站我做谁,而且这个策略似乎看起来更合理一些。
  4. 直接打车,或者等上一阵遭不住了打车跑路。

现在就是两个问题了,问题一:给定预算下,用那种策略平均等待时间最少。问题二:给定忍耐的等待时间,等不到必须坐车,哪种策略cost最少。(当然这个cost里面加入了一点自己的体验,不想走路,所以这个cost还是很有意义的)

这两个问题其实是一回事,给一个平均意义cost随着忍耐时间变化的曲线就好了。

策略分析

假设等待时间从0开始到,公交A的泊松过程参数,cost ;公交B的泊松过程参数,cost ;直接打车cost 。下面分析按照难易程度展开。

策略1:忍不了一点点,直接打车

直接打车策略的cost显然不会随着时间改变,无论等多久,当决定打车时候,cost永远是

策略2:死等A/B公交,等到忍耐时间后打车

这两个策略只有参数的差别,所以以A为案例进行分析。等到时间的话,期间可能来0,1,2,3,。。。辆公交,但是我们其实只区分来没来,来了就能走,考虑泊松过程到达时间间隔与等待时间的分布:

事件 0~时间内一辆A都没来 0~时间内A公交到达1辆或以上
概率 1-
cost

该策略平均cost随时间的函数为:

死等公交B到同理

事件 0~时间内一辆B都没来 0~时间B公交到达1辆或以上
概率 1-
cost

死等B公交到的cost函数为

策略3:等到忍耐时间,A和B谁先来上谁,都没来打车

这里首先需要推导一个泊松过程到达先后的概率,分别代表公交A和公交B第一辆到达的时间。

事件 0~时间内A和B都没来 0~时间内至少来了一辆,并且A比B来的早 0~时间内至少来了一辆,并且B比A来的早
概率
cost

所以本策略的cost函数为

结果分析

把上述策略平均意义下cost随最大忍耐时间变化的图像画出来:

结果显而易见,如果忍耐时间足够大,20分钟以内,那辆车先来上那辆,20分钟以后死等公交A了。

还有一些不那么重要的结论,首先是忍耐时间越长平均意义的cost越低,同时如果让公交B变得经济一些会显著降低策略3的平均cost,并且如果增开一路公交C也会显著降低平均cost。

额外的问题?

昨天实际的场景时,我在隔壁魏里斯汉堡等餐的时候,透过玻璃窗子发现了路对面公交站一辆公交B开过去了,这时候我的策略又该怎样改变?如果我没看清是公交A还是公交B开过去了,我的策略又该怎样改变?如果开过去的公交可能既不属于公交A和公交B,可能是一个毫不相干的公交开过去了,我的策略又是否需要变?欢迎大家一起讨论聊一聊。

最后,经费充足的话这个问题就没有意义了,但是这个等车时候思考的过程以及回家后复习推导的过程更具意义。而且,15元的打车费真的对我很重要。

概率和随机(一)

随机的魅力

这篇博客的题目是概率和随机,随机性是一种客观存在现象,与生俱来具有一种未知性和神秘感,描述和处理随机性是多年以来人们不断追求的目标。如果有人说他能完全解决随机性引发的问题,那可能他就是科幻电影或者神话传说里类似先知的角色了。与其说解决随机性问题,不如说刻画随机性现象更准确一些,现实中我们只能通过对随机性进行精准刻画来将随机性考虑在内,以备不时之需。所以本篇博客后续的内容和后续的博客也是围绕随机性的刻画描述来展开的。

自动化的课程培养方案中有非常多关于统计、概率和随机的课程,能选的课差不多我都选过,包括有本科孙德龙老师讲授的概率论,研究生阶段晁颖老师讲授的数理统计、程晓青老师讲授随机过程和翟桥柱老师讲授的泛函分析。甚至连思修老师也曾经提过一个观点:跟任何人交流其实是在和他过往的经历打交道。这也是典型的贝叶斯观点,我也非常认可。但由于我的学艺不精浅尝辄止,这些课程的知识域映射到我的脑子里"almost everywhere"只剩下一些碎片化的点,比如能记起来概率的定义、随机变量的定义、贝叶斯和频率学派的争论、概率测度空间等等,但概念之间的关联却毫无印象,没有形成一个完整的知识体系。

在现阶段的学习中整理之前学过的知识,就当是一种记录和复习了,本篇博客主要记录三类内容,第一部分是概率的发展历史,我一直对数学史有着一些独特的兴趣,可能是因为数学内容如听不懂又比较喜欢,所以也只能关注关注数学史了。第二部分是一些概率的基础内容,第三部分是贝叶斯学派的基本思想,通过对比和举例将以前学过的知识具象化和串联起来。后续的博客可能会持续更新一些描述和处理随机性相关的方法。

概率的发展历史

概率起源于15世纪到16世纪意大利的一数学家对某些靠运气的游戏中的特定概率进行计算,但概率论起源于17世纪中期,1654 年,一个名叫 A.G.C. de M´er´e 的法国贵族写了一本小册子,名叫《De Ratiociniis in Ludo Aleae》(可译为《关于机会游戏的计算》), 这是关于概率论的第一本书。

18世纪期间的主要贡献者是 J. Bernolli (1654—1705) 与 A. de Moivre (1667—1754). Bernoulli 在概率论领域的代表作是《Ars Conjectandi》(可译为《猜测的艺术》),De Moivre 是一位法国数学家,但是大部分时间他住在英国. De Moivre 开创了概率论的现代方法:1718 年发表了《The Doctrine of Chance》. 在此书中统计独立性的定义首次出现.

19世纪个期间的主要贡献者是 P. S. M. Laplace (1749—1827), S. D. Poisson (1781—1840), C. F.Gauss (1777—1855), P. L. Chebyshev (1821—1894), A. A. Markov (1856—1922)与 A. M. Lyapunov (1857—1918). 这个时期的研究主要围绕极限定理展开.

20 世纪可称为概率论发展的现代时期,本时期开始于概率论的公理化.在这个方向上的早期贡献者有 S. N. Berstein (1880—1968), R. von Mises (1883—1)与 E. Borel (1871—1956). 1933 年,俄罗斯著名数学家 A. N. olmogorov出版了他的伟大专著《Foundations of the Theory of Probability》. 其中,他为概率论建立了目前广泛采纳的公理化体系.

概率的公理化定义

概率公理化定义中的概率空间和测度空间定义非常相似,也有着非常明显的对应关系,这也是理解概率非常关键的过程。概率是度量“事件发生可能性”的大小,但不是每个事件都可以定义其概率,因此需要首先描述样本和事件。(没有概率的事件对应不可测集,涉及选择公理等,暂不举例)

概率空间由三部分构成:

  1. $\Omega$为样本空间,是所有可能出现的结果的集合
  2. $\mathbf{F}$为事件空间,是所有事件的集合,事件是样本空间的子集,基本事件是样本空间里的元素。
  3. $\mathbf{P}$是概率函数,是从事件空间到[0,1]实数轴上的映射。

随机变量我理解是本科概率论最难最核心的地方,尤其是一些随机变量函数分布的求解,类似于通过$X$概率密度求解$X^2,1/X,(X-\hat{X})$的概率密度函数,需要一些类似于积分换元的变换技巧。随机变量在本科课本的定义中是分为了离散型和连续型随机变量,理解为事件到实数的映射,离散型是在有限个可能取值或可数个可能取值,连续则是在若干个区间取值。离散型通常考虑$P{X=a}$发生的概率,连续型则是$P{a<X<b}$的概率,同时连续性随机变量的概率密度函数被称为 probability density function。

实际上测度论是概率论的理论基础,概率的很多概念都和测度论中相对应,可以理解测度论是一个抽象类,概率论是其中的一个实例。

概率度量的是事件发生的可能性,事件对应到测度里面就是集合,需要考察事件的全体,对应到测度论就是集合系,所有类似的对应关系大致如下表,

概率空间 测度空间 备注
事件 集合
样本空间 全集
事件域 集合系 集合系必须符合Borel $\sigma-$代数定义
概率函数 测度函数 从事件域中的事件映射到实数/从$\sigma-$代数中的集合映射到实数
随机变量 可测函数 将概率空间三元素映射到实数空间上

事件的概率就涉及到事件的组合运算,对应集合的交、并、差、余,所以必须保证集合可列次运算后仍不能超出全体范围。这样的集合系被称为$\sigma-$代数,$\sigma-$代数的基本概念是:

  1. 集合系包含全集;
  2. 每个集合的余集在集合系;
  3. 任意可列个集合的并集在集合系。

满足这三条基本定义就可以推出:空集,可列次交、并、差、上限集、下限集运算后都在集合系。

随机变量对应的就是实值可测函数。建立了样本空间(事件全体)到实数轴的映射。同时基本事件经过复杂运算生成的事件,映射到实数轴就是实数轴上Borel $\sigma-$代数中的集合。因此度量事件发生可能性的大小就只需要度量“实数轴上Borel$\sigma-$代数的集合”就可以。

随机变量的测度角度定义如下:设$(\Omega,\mathbf{F},\mathbf{P})$是概率测度空间,若对实数轴上的Borel$\sigma-$代数中任一集合B,都有${\omega\in \Omega:X(\omega)\in B}\in \mathbf{F}$,(也可以理解为${\omega\in \Omega:X(\omega)<=x}\in \mathbf{F},\forall x$)则称$X(\omega)$为随机变量,记作$X$。

随机变量就是建立了“随机事件”到“实数轴上Borel $\sigma-$代数”的一种对应,并且保证了建立了这种对应的随机事件都是可以定义概率测度的。

贝叶斯观点

“亡羊补牢、前车之鉴、引古证今”,“苟日新,日日新,又日新”这一系列传统成语和名言中都蕴含着一个道理,那就是从已知的事件中学习知识。从经验中能得到什么教训?如何才能认识这个世界?正是贝叶斯理论研究的内容。这一小节主要描述三个部分,从三门游戏引出贝叶斯的应用,在复习贝叶斯推断中常见的两类错误的概念,最后介绍贝叶斯学派和频率学派的观点差异。

三门游戏

源于很早之前的娱乐电视节目,面前有ABC三扇门,其中一扇门背后放着一辆轿车,如果门后面有轿车,就归你所有。

显而易见中奖概率是$\frac{1}{3}$,但有意思的是,做出选择后,主持人会在另外两扇门中打开一扇门,打开的这一扇门背后一定没有汽车,现在会有一个机会要不要改变主意,还是坚持最初的选择。

如果不换的话,中奖概率依然是$\frac{1}{3}$,换了之后中奖概率就变成了$\frac{\frac{1}{3}}{\frac{1}{2}}=\frac{2}{3}$,所以从贝叶斯的观点来说换的话可以提升中奖概率。

频率观点则是做大量实验,模拟一万次的情况看看各自中奖数目是多少。当然经过实验后换门的概率确实上升到了$\frac{2}{3}$。

从总体来看贝叶斯和频率学派结果是一样的,但如果现场主持人在打开B门的时候有一些犹豫,如果B门后面没有奖品主持人会毫不犹豫的打开B门,又或者犹豫B还是C的时候说明两个门后面都没有奖品,所以A的概率大一些不要换。又或者电视台的表弟告诉你主持人都有预案,根据每个选项做出选择。面临这种复杂的情况频率学派无法针对每一次都模拟大量实验,而贝叶斯方法提供的是一种随着信息不断增多而不断调整自己策略的方法。

第一类错误和第二类错误

决策 阳性 阴性
阳性 真阳性TP 假阳性FP
阴性 假阴性FN 真阴性TN

在评价一种检测方法时,人们经常用的两个概念是灵敏度(sensitivity)和特异度(specificity)。如果用TP、TN、FP、FN分别表示真阳性、真阴性、假阳性、假阴性样本的个数。

  • 灵敏度Sn=$\frac{TP}{TP+FN}$:真正的阳性样本中有多少比例能被正确检测出来(方法能够把阳性样本正确识别出来的能力)
  • 特异度Sp=$\frac{TN}{TN+FP}$:真正的阴性样本中有多少比例没有被误判(方法能够把阴性样本正确判断出来的能力)

第一类错误率用$\alpha$表示,指真实的阴性样本中被错误判断为阳性的比例;第二类错误率用 $\beta$表示,指真实的阳性样本中被错误判断为阴性的比例。第一类错误可以理解为误报,第二类理解为漏报。

统计推断或者贝叶斯决策通常要同时考虑这两类错误,通常限定一类错误为指定值,另一类错误率最小。

Frequentist and Bayesian

频率学派和贝叶斯学派对于“在应用中,某个随机事件的概率该如何被赋值?”这个问题有著不同的看法:频率主义者根据随机事件发生的频率,或者总体样本里面的发生的个数来赋值概率;贝叶斯主义者则根据未知的命题来赋值概率。

贝叶斯学派对概率的解释可以看作是命题逻辑的扩展,可以使用假设进行推理。同时贝叶斯的观点是给一个假设(hypothesis)分配一个概率(probability),而在频率学派的推理中,一个假设通常是在没有分配概率的情况下进行测试的。

经常会有人说频率是客观的,贝叶斯是主观的概率,但事实上贝叶斯是基于一系列主观先验的客观推理,逻辑过程是非常客观的。如果频率学派是客观概率,但频率的前提假设是一切信息全知,这也是一个很强的主观假设。频率法和贝叶斯对信息是否全知的预设不同,它们解决的不是一类问题。

频率法适合解决普遍的通用的群体性的问题,比如生育率,飞机失事率等,最终获得普适概率。而贝叶斯适合解决变化的、个体的、无法重复的概率问题,可以描述随着信息知识更新过程中某个假设的状态。并且通常可以将两个方法结合,使用频率获得先验概率,在使用贝叶斯计算每个证据的权重。

总的来说,两种学派的主要差别在于探讨「不确定性」这件事的立足点不一样,频率学派试图对「事件」本身建模,认为「事件本身就具有客观的不确定性」;贝叶斯学派不去试图解释「事件本身的随机性」,而是从观察事件的「观察者」角度出发,认为不确定性来源于「观察者」的「知识不完备」,在这种情况下,通过已经观察到的「证据」来描述最有可能的「猜的过程」,因此,在贝叶斯框架下,同一件事情对于知情者而言就是「确定事件」,对于不知情者而言就是「随机事件」,随机性并不源于事件本身是否发生,而只是描述观察者对该事件的知识状态。频率法和贝叶斯方法本身都是客观的,在使用的过程中都或多或少产生一些主观性。

参考材料

[1] https://zhuanlan.zhihu.com/p/23629928

[2] https://www.zhihu.com/question/43721834

[3] http://www.tup.tsinghua.edu.cn/upload/books/yz/058550-01.pdf

[4] https://www.zhihu.com/question/389629204/answer/1171421706

[5] https://en.wikipedia.org/wiki/Bayesian_probability

  • Copyrights © 2015-2024 galaxy
  • Visitors: | Views:

请我喝杯咖啡吧~

支付宝
微信