统计学权威盘点过去50年最重要的统计学思想
本文为你介绍图灵奖得主、“贝叶斯网络之父”Judea Pearl的新论文:过去50年中最重要的统计思想是什么?
近日,图灵奖得主、“贝叶斯网络之父”Judea Pearl在Twitter上分享了一篇新论文“What are the most important statistical ideas of the past 50 years?”(过去50年中最重要的统计思想是什么?)
这篇论文由哥伦比亚大学统计学教授Andrew Gelman和阿尔托大学计算机科学系副教授Aki Vehtari所著,他们根据自己的研究和文献阅读经验总结出了过去半个世纪以来最重要的8个统计思想,并表示:“它们是独立的概念,涵盖了统计方面不同的发展。这些思想都在1970年前的理论统计文献和各个应用领域的实践中就已经出现。但是在过去的五十年中,它们各自已经发展到足以成为新事物的程度。”
他们认为,过去半个世纪中最重要的统计思想是:反事实因果推理,基于bootstrapping(自助抽样法)和基于模拟的推理,超参数化模型和正则化,多层模型,泛型计算算法(generic co
mputation algorithms),自适应决策分析,鲁棒推理和探索性数据分析(未按时间顺序,排序不分先后)。
在这篇论文中,他们将讨论这些思想的共同特征、它们与现代计算和大数据的关系以及在未来几十年中如何发展。“本文的目的是引起有关统计和数据科学研究更大主题的思考和讨论。”
值得一提的是,Judea Pearl在推文中表示,“对作者将因果推理列入其中感到欣慰,这与Stigler在《统计学七支柱》中的总结截然不同,后者完全没有提到因果推理。”另外,他也对大学统计专业很少安排因果推理课程感到担忧,“统计学可以期待复兴或改革吗?不幸的是,统计系中提供因果推理课程的非常少,更不用提教'The First Law'的,简直是无穷少。”
论文:What are the most important statistical ideas of the past 50 years?
论文地址:
/pdf/2012.00174.pdf
作者简介:
Andrew Gelman,美国统计学家,哥伦比亚大学统计学和政治学教授。他1986年获得麻省理工学院数学和物理学博士学位。随后,他获得了博士学位。在哈佛大学统计学荣誉退休教授Donald Rubin的指导下,于1990年从哈佛大学获得统计学博士学位。他是美国统计协会与数理统计学会的院士,曾三度获得美国统计协会颁发的“杰出统计应用奖”,谷歌学术显示,他的论文总引用量超过12万,h-index为110。
Aki Vehtari,阿尔托大学计算机科学系副教授,主要研究领域为贝叶斯概率理论和方法、贝叶斯工作流、概率编程、推理方法(例如Laplace,EP,VB,MC)、推理和模型诊断、模型评估和选择、高斯过程以及分层模型。谷歌学术显示,他的论文总引用量近4万。他和Andrew Gelman都是《贝叶斯数据分析》的作者,这本书因在数据分析、研究解决难题方面的可读性、实用性而广受读者好评,被认为是贝叶斯方法领域的优秀之作。
以下是全文编译:
1 过去50年最重要的统计思想
1.1 反事实因果推理
在这里,我们首先要介绍在统计学、计量经济学、心理测量、流行病学和计算机科学领域出现的一些重要思想,它们都围绕着因果推理面临的挑战展开,并且都在某种程度上弥平了「对观测推理的因果解释」和「认识到关联关系并不意味着因果关系」这两方面的差距。
核心的思想在于,在某些假设情况下,我们可以识别出因果关系,而且我们可以严谨地声明这些假设,并且通过设计和分析以各种方式解决它们。
到目前为止,关于如何将因果模型应用于真实数据的具体问题上的争论仍在继续。然而,在过去的五十年中,这一领域的工作进展使因果推理所需要的这些假设变得精确得多,从而反过来又促进了解决这些问题的统计方法的相关工作。
研究人员针对各个领域研发出了各种各样的因果推理方法:在计量经济学领域中,人们主要
关注对线性模型的因果估计的可解释性;在流行病学领域中,人们主要关注基于观测数据的推理;心理学家已经意识到交互和各种处理效应的重要性;在统计学领域中,出现了一系列有关匹配和其它调整并衡量实验组和对照组之间差别的方法;在计算机科学领域中,涌现出有关多维因果归隐模型的研究工作。
在上述所有工作中,有一条研究主线,即从反事实或可能得到的结果的层面上对因果问题进行建模,这相较于之前没有明确区分描述性推理和因果推理的标准方法是一个巨大的飞跃。
在这个研究方向上,具有里程碑意义的工作包括 Neyman (1923),Welch (1937),Rubin (1974),Haavelmo (1973) 等人的研究成果,更加详细的研究背景请参阅 Heckman 和 Pinto 于 2015 年发表的论文「Causal analysis after Haavelmo」。
反事实因果推理的思想和方法在统计学以及相关的应用研究和策略分析领域都有深远影响。
1.2 bootstrap与基于模拟的推理
在过去的50年中,用计算取代数学分析是统计学的一大发展趋势。这一变化甚至在「大数据」分析出现之前就开始了。
bootstrap是最纯粹的基于计算定义的统计方法之一,它定义了一些估计量,并将其应用于一组随机重采样数据集。其思想是将估计值视为数据的一个近似的充分统计量,并将自助分布视为对数据的采样分布的近似。在概念层面上,人们推崇将预测和重新抽样作为基本原则,可以推导出诸如偏差校正和收缩等统计学操作。
历史上,这一方向诞生了「刀切法」和「交叉验证」等方法。此外,由于bootstrap思想的通用性及其简单的计算实现方式,bootstrap立刻被广泛用于各种传统的解析近似方法效果不佳应用,从而产生了巨大的影响。时至今日,充足的计算资源也起到了帮助作用,使得对许多重采样得到的数据集进行反复的推理变得十分容易。
计算资源的增加也使得其它重采样和基于模拟的方法流行了起来。在置换检验中,我们通过随机打乱排列真实值(target)来打破预测值和真实值之间的依赖关系,从而生成重采样数据集。参数化的bootstrap、先验和后验预测检查、基于模拟的校正都是根据模型创建了复制数据集,而不是直接从数据中重采样。在分析复杂模型和算法时,根据已知的数据生成机制采样的做法往往被用于创建模拟实验,用于补充或替代数学理论。
1.3 过参数化模型和正则化
自 20 世纪 70 年代以来,统计学受个方面的影响,发生了一个重大的变化,即用一些正则化过程得到稳定的估计和良好的预测结果,从而拟合具有大量参数(有时参数比数据点更多)的模型。该思想旨在在避免过拟合问题的同时,获得一种非参数化的或高度参数化的方法。我们可以通过针对参数或预测曲线的惩罚函数来实现正则化。
早期的高度参数化的模型包括「马尔科夫随机场」、「样条函数」、「高斯过程」,随后又出现了「分类和回归决策树」、「神经网络」、「小波收缩」、「Lasso 和 Horseshoe 等最小二乘的替代方法」、「支持向量机及相关理论」。
上述所有模型都会随着样本规模的增加而扩大,其参数往往也不能被直接解释,它们是一个更大的预测系统的一部分。在贝叶斯方法中,我们可以首先在函数空间中考虑先验,然后间接推导出相应的模型参数的先验。
在人们能够容易地获得充足的计算资源之前,这些模型的使用还十分有限。此后,图像识别、深度神经网络领域中的过参数化模型持续发展。Hastie、Tibshirani 以及 Wainwright 于 2015 年将许多该领域的工作定义为对稀疏结构的估计。
正则化的回归分析可以避免
但是在本文作者看来,正则化技术更为通用,这是因为它使稠密的模型能够适应数据支持的程度。在统计学领域以外, 这方面也产出了许多成果,例如:非负矩阵分解、非线性降维、生成对抗网络、自编码器。它们都是可以寻结构和分解结果的无监督学习方法。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。