第四章  多元线性回归模型
在一元线性回归模型中,解释变量只有一个。但在实际问题中,影响因变量的变量可能不止一个,比如根据经济学理论,人们对某种商品的需求不仅受该商品市场价格的影响,而且受其它商品价格以及人们可支配收入水平的制约;影响劳动力劳动供给意愿(用劳动参与率度量)的因素不仅包括经济形势(用失业率度量),而且包括劳动实际工资;根据凯恩斯的流动性偏好理论,影响人们货币需求的因素不仅包括人们的收入水平,而且包括利率水平等。当解释变量的个数由一个扩展到两个或两个以上时,一元线性回归模型就扩展为多元线性回归模型。本章在理论分析中以二元线性回归模型为例进行。
一、预备知识
(一)相关概念
对于一个三变量总体,若由基础理论,变量和变量之间存在因果关系,或的变异可用来解释的变异。为检验变量和变量之间因果关系是否存在、度量变量对变量影响的强弱与显著性、以及利用解释变量去预测因变量,引入多元回归分析这一工具。
将给定条件下的均值
                                  4.1
定义为总体回归函数Population Regression Function,PRF)。定义误差项error term,记为,即,这样,或
                                        4.2
4.2)式称为总体回归模型或者随机总体回归函数。其中,称为解释变量(explanatory variable)或自变量(independent variable);称为被解释变量(explained variable)或因变量(dependent variable);误差项解释了因变量的变动中不能完全被自变量所解释的部分。
在总体回归模型(4.2)中参数是未知的,是不可观察的,统计计量分析的目标之一就是估计模型的未知参数。给定一组随机样本,对(4.1)式进行估计,若的估计量分别记为,则定义(4.3)式为样本回归函数
                              4.3
注意,样本回归函数随着样本的不同而不同,也就是说是随机变量,它们的随机性是由于的随机性(同一组可能对应不同的)、各自的变异、以及之间的相关性共同引起的。定义残差项residual term,记为,即,这样,或
                            4.4
4.4)式称为样本回归模型或者随机样本回归函数。样本回归模型中残差项可视为总体回归模型中误差项的估计量。
(二)多元线性回归模型的矩阵表示
多元线性回归模型的参数估计比一元线性回归模型要复杂得多,为了便于计算和分析,便于将结果由三变量总体推广到一般的多变量总体,引入矩阵这一工具简化计算和分析。
是取自总体的一组随机样本。在该组样本下,总体回归模型(4.2)式可以写成方程组的形式
                     
利用矩阵运算,可表示为
                                  4.5
, ,
则在该组样本下,总体回归模型的矩阵表示为
                                                    4.6
,
则样本回归模型的矩阵表示为
                                                      4.7
(三)模型假定
假定1 回归模型是参数线性的,并且是设定正确的。
假定2 随机误差项与解释变量不相关。即
如果解释变量是非随机的,则该假设自动满足。
假定3 零均值假定。即
假定4 同方差假定。即
假定5 无自相关假定。即两个误差项之间不相关
   
假定6 解释变量之间不存在完全共线性,即两个解释变量之间无确切的的线性关系。
假定7 正态性假定。即
(四)参数估计与估计量的分布
系数向量OLS估计为
                                                4.8
其中,的转置矩阵。在随机误差项服从正态分布的假定下,系数向量的估计量也服从正态分布,即
                                            4.9
的第j个主对角元素为,则
                                              4.10
有了系数估计量的分布,就可以对总体参数做假设检验。与双变量总体相同,总体误差是不可观察的,因而其方差是未知的。若用的无偏估计量代替,则OLS估计量服从自由度为t分布,而不是正态分布,即
                                              4.11
其中,
(五)预测原理
回归分析的目的之一是利用回归模型预测因变量。假设三变量总体的回归模型为(4.2),即
                                        4.2
在一组随机样本下,利用OLS求得样本回归函数为(4.3
                            4.3
给定样本外一点,则因变量的点预测为
                                          4.12
点预测的标准误为
                                          4.13
因变量的置信度为的区间预测为
                  [,]          4.14
二、案例
[案例1] Woody餐馆的选址分析
Woody餐馆是一家价位适中、24小时营业的家庭连锁店,公司邀请你决策下一家连锁店的选址问题。你决定建立一个回归模型来解释每一家连锁餐馆的毛销售额Ythe gross sales volume,通过文献的阅读,你认为以下变量对毛销售额的影响较大,
variable怎么记
N =竞争变量:餐馆位置半径2里以内市场直接竞争者的数量;
P=人口:    餐馆位置半径3里以内人口的数量;
I=收入:    餐馆位置半径3里以内家庭平均收入。
并且通过调研,你获得了33Woody餐馆连锁店的数据。
[案例2] 经济形势和实际工资对人们工作意愿的影响
在第三章,我们根据劳动经济学理论,分析了经济形势对人们工作意愿的影响存在两种效应:
受挫工人效应和增加工人效应;并且利用1980-2002年的数据实证了受挫工人效应占主导地位。
但根据劳动经济学理论,影响人们工作意愿的因素,除了经济形势以外,还有实际的工资水平。从理论上说,实际工资增加对劳动供给具有两种效应:替代效应与收入效应。替代效应趋于使劳动供给增加,而收入效应则趋于使劳动供给降低,两种效应的相对影响取决于家庭的偏好(参考文献[4]p49)。
本案例考察实际工资对人们工作意愿是否有影响,以及在有影响的情况下,那种效应占优。数据见表3.1
三、实验目的
[案例1] Woody餐馆的选址分析
1、绘制YNPI的散点图,并在散点图中附加回归线。
2、建立YNPI的线性回归模型,并定性分析解释变量NPIY的影响。
3、利用样本数据及OLS对回归模型进行估计,并报告回归结果。
4观察回归系数的显著性和方程的显著性,并解释回归系数的含义。
[案例2] 经济形势和实际工资对人们工作意愿的影响
1、绘制clfprahe82的散点图,并附回归线,观察城市劳动参与率与实际工资之间的线性关系。
2、建立clfprahe82的一元线性回归模型,利用1980-2002年的数据估计模型,并观察回归系数的显著性和方程的显著性。
3、同时考虑经济形势与实际工资对人们工作意愿的影响,建立二元线性回归模型,利用1980-2002年的数据估计模型,观察回归系数的显著性和方程的显著性,并解释回归系数的经济含义。
4、对上面(2)与(3)中估计结果的差别进行解释。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。