“内生性” 到底是什么鬼?
    王也 / variable什么意思中文纽约大学政治学博士生
内生性(endogeneity)的概念跟内生变量(endogenous variable)的概念息息相关。而内生变量这一概念的兴起又跟社会科学的模型化和系统化密不可分。比如曼昆在他的经济学原理(或者是宏观经济学?)一开头就举了一个汉堡包的例子:在汉堡包的生产中,有投入(原料、劳动、工厂),有产出(汉堡包),我们感兴趣的是中间的制作流程。那么研究者应该做的,是通过一个模型来刻画上述制作流程(比如一个生产函数),从而给定模型的输入(各类投入品的消耗),就能计算出对应的输出(汉堡包产量)。在得到了准确的模型之后,我们就可以进一步对汉堡包的生产进行预测和改进,达到理解世界和改造世界的目的。在这个例子中,投入就是汉堡包制造模型中的外生变量,而产出则是内生变量。换言之,外生变量是模型中的 “原因”,而内生变量是模型中的 “结果”。
很明显,这种思考问题的方法带有浓重的控制论彩,将任何社会现象都看作一个包含了输入、输出和模型三部分的系统(或许是二战期间大批巨型工程,比如曼哈顿工程的遗产?)。在政治学里,这种视角导致了大卫·伊斯顿(David Easton)的系统主义尝试(今天的影响力
已然不大)。而在经济学中,其结果是学者们开始将宏观经济的运行作为一个包含了数十乃至数百种输入和输出的巨大系统加以处理,以至于联立方程模型在五六十年代变得非常流行。学者们认为,可以用一大堆线性方程来表示各个宏观指标(比如物价、失业率、利率等等)之间的关系,从而为政府的经济政策指定提供参考(当然凯恩斯主义的发展在其中也扮演了重要角)。
我们都知道,在一个回归方程里,等号左边是因变量,右边是自变量。在联立方程模型里,我们有几十乃至几百个方程,所以每个变量都可能同时出现在方程 A 的左手边和方程 B 的右手边。也就是说,这些变量的值既被其他变量决定,又能够影响另外一些变量。它们在整个模型中起了中间环节的作用,因此被称为 “内生变量”(只出现在左手边的变量显然也是内生的)。如果我们假设每个变量都是内生的,那模型中的参数就会太多,以至于根本无法估计(不可识别)。所以,研究者必须根据理论或者现实观察,对模型加以简化,假设某些变量只出现在各个方程的右手边,这些纯粹的 “输入” 就被称为 “外生变量”。正是外生变量的存在,使得我们可以 “识别(identify)” 模型中的参数。
举个最简单的例子,经济学里基本的供求模型告诉我们,供给曲线(p = a + bq)和需求曲
线(p = c - dq)共同决定了价格(p)和交易量(q)。然而现实中我们能够观察到的,只是一组均衡时的 p q,基于这个数据,我们用回归只能得到斜率和截距两个参数的估计值。但供给曲线和需求曲线里一共有四个参数(a b c d)。此时,通过回归这种 “简约式(reduced form)” 估计得到的参数,无助于我们得知 “结构式(structural form)” 模型中的 “深层参数(deep parameter)”。我们的系统里的pq都是内生变量,所以才会出现无法识别的情况。怎么解决这个问题呢?经典的办法是,假定存在着某个不影响需求,只影响供给(或者反过来)的外生变量。比如在渔业中,海上的坏天气很可能阻碍渔船出海,形成一个供给侧的冲击,但应该不会改变人们对海产品的需求。根据天气的变化,我们就有可能估计出全部的四个参数。事实上,这也是 “工具变量(instrumental variable)” 这一估计方法的起源。
从今天的角度来看,联立方程模型当然充满了各种问题:为什么方程都是线性的?这么多关系式是从何推导而来?因此在经济学和政治学中,这套方法已经不再时兴。但是,这整个体系时至今日,还在很大程度上左右着社会科学家们对实证研究的评判。当我们写下一个回归方程的时候,其实已经假定了:1. X “外生变量”,而 Y 是“内生变量”,2. 整个系统中或者不存在其他方程,或者其他方程的存在不影响当前方程的估计结果。因此,当人们说你的模
型有内生性问题的时候,他们的意思其实是:有没有可能真实的系统中实际上有另外一个方程,在其中当前的 X 位于等号左边?在这个方程中,如果右端是 Y,我们就说 X Y 互为因果;如果右端是另一个变量 Z,我们就说存在遗漏变量。这也就是导致内生性的两个基本原因。假如真实系统里有两条方程,你只用 OLS 估计了一条,那么因果链条的一部分就被忽视了,得到的估计也就无法反映系统中的实际情况。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。