您好,欢迎来到保捱科技网。
搜索
您的当前位置:首页第三章 一元线性回归模型

第三章 一元线性回归模型

来源:保捱科技网
第三章 一元线性回归模型

第一节 一元线性回归模型及其基本假设

一元线性回归模型

第二章回归分析的基本思想指出,由于总体实际上是未知的,必须根据样本回归模型估计总体回归模型,回归分析的目的就是尽量使得样本回归模型接近总体回归模型,那么采取什么方法估计样本回归模型才使得估计出的样本回归模型是总体回归模型的一个较好估计值呢?这里包括两个问题:一是采用什么方法估计样本回归模型;二是怎样验证估计出的样本回归模型是总体回归模型的一个较好估计值。这些将在接下来的内容中讲到。这一章介绍

最简单的一元线性回归模型,下一章再扩展到多元线性回归模型。

一元线性回归模型及其基本假设 一、一元线性回归模型的定义

一元线性回归模型是最简单的计量经济学模型,在该一元模型中,仅仅只含有一个自变

量,其一般形式为:

yi = β0 + β1xi + μi(3.1.1)

其中yi是因变量,xi是自变量,β0、β1是回归参数,μi是随机项。由于式(3.1.1)

是对总体而言的,也称为总体回归模型。

随机项μ代表未被考虑到模型中而又对被解释变量y有影响的所有因素产生的总效应。

二、一元线性回归模型的基本假设

由于模型中随机项的存在使得参数β0和β1的数值不可能严格计算出来,而只能进行估计,在计量经济学中,有很多方法可以估计出这些参数值,但采用什么方法能够尽可能准确地估计出这些参数值,取决于随机项μ和自变量x的性质。因此,对随机项 μ和自变量x的统计假定以及检验这些假定是否满足的方法,在计量经济学中占有重要的地位。 估计方法中用得最多的是普通最小二乘法(Ordinary Least Squares),同样为了保证利用普通最小二乘法估计出的参数估计量具有良好的性质,也需要对模型的随机项μ和自变量x提出若干种假设。当模型中的随机项μ和自变量x满足这些假设时,普通最小二乘法就是适合的估计方法;当模型中的随机项μ和自变量x不满足这些假设时,普通最小二乘法就不是适合的方法,这时需要利用其他的方法来估计模型。所以,严格来说,这些假设并不是针对

计量经济学模型的,而是针对普通最小二乘法的。

要求随机项μ和自变量x满足的统计假定主要有五个,这些假定称为线性回归模型的经

典假定。

假定1:每个随机项μi(i = 1,2,3,…,n)的期望值都为0,即

E(μi/x) = 0 i = 1,2,3,…,n

E(μi/x) = 0的含义是样本中第i次观测到的随机干扰项的期望值,不是任何一次观测所观测到的自变量的函数。这就意味着自变量不能为随机项提供有用的信息,自变量数据

的生成过程于模型,即于生成随机项μi的过程。

假定2:每个随机项μi(i = 1,2,3,…,n)的方差均为同一个有限常数,都等于σ2,

Var(μi/x) = σ2 = 常数 i = 1,2,3,…,n

随机项方差都相等的假设也称为同方差(Homoscedasticity)或等方差假定。

假定3:每个随机项μi(i = 1,2,3,…,n)都是服从正态分布(Normally Distributed)

的实随机变量。

如果结合假定1、假定2和假定3,则有 μi~N(0,σ2) i = 1,2,3,…,n

即每个随机项μi(i = 1,2,3,…,n)都是服从期望值为0,方差为常数σ2的正态

分布。

假定4:与自变量不同观察值xi相对应的随机项互不相关,也称为随机项非自相关

(Nonautocorrelation)假定,即

COV(μi,μj) = 0 i≠j i,j = 1,2,3,…,n

假定5:自变量是外生的,随机项与任一解释变量都不相关,即

COV(μi,xj) = 0 i,j = 1,2,3,…,n

以上五个假定也称为高斯-马尔柯夫(Gauss-Markov)假定,满足这些假定的线性回归

模型也称为经典线性回归模型。

除以上五个基本假定外,还有两个暗含假定,即进行回归分析时假设模型已经满足的假

定。

假定6:随着样本容量的无限增加,解释变量x的样本方差趋于一个有限常数Ω,即

■S2 = ■■■(xi - x)2→Ω

假定7:所要估计的计量经济学模型是正确设定的。

假定6的目的主要是防止出现伪回归问题(Spurious Regression Problem)。即当解释变量是时间序列数据,而且是持续上升或下降时,不但会使得大样本统计推断变得无效,而且容易产生伪回归问题。所谓伪回归问题,是指当两列时间序列数据出现一致的变化趋势时,即使这两列数据间没有任何的经济关系,在进行回归分析时也会表现出较高的拟合优度。

假定7是要求模型设定正确,不存在设定偏误(Specification Error)。

由于μi服从假定3所示的正态分布,而从式(3.1.1)可知,yi是μi的线性函数,所

以,yi也服从正态分布。

根据假定1以及式(3.1.1)可以得到yi的期望值为: E(yi) = E(β0 + β1xi + μi) = β0 + β1xi(3.1.2)

根据假定2以及式(3.1.1)可以得到yi的方差为:

Var(yi) = Var(β0 + β1xi + μi) = Var(μi) = σ2(3.1.3) 所以, yi服从期望值为β0 + β1xi,方差为常数σ2的正态分布:

yi~N(β0 + β1xi,σ2)(3.1.4)

yi的分布在对参数以及因变量进行区间估计时会用到。

虽然μi的方差σ2是一常数,但实际上σ2是未知的,由于σ2是模型中的一个重要参

数,在下面估计回归参数β0和β1时,也会给出σ2的一个估计量。

第二节 回归参数的普通最小二乘估计 回归参数的普通最小二乘估计 一、普通最小二乘原理

已知一组样本观测值(xi,yi)(i = 1,2,3,…,n),回归分析的目的就是使依据这些样本观测值估计出的样本回归模型能尽可能地接近总体回归模型,但由于总体回归模型实际上是不知道的,那么怎样使得估计出的样本回归模型是总体回归模型的最好估计呢?这就要求被解释变量的估计值■i(样本回归模型的被解释变量)与实际观测值yi(总体回归模型的被解释变量)尽可能接近,考虑到样本残差εi = yi - ■i,因此,应该要求样本残差尽可能接近0,考虑到总共有n个样本观测值,且不同样本观测值的样本残差有正有负,见图3-1。

因此,应要求\\\"总体样本残差\\\"尽可能小,即

Q =■ε2■(3.2.1)

达到最小,这就是普通最小二乘原理。 二、回归参数的普通最小二乘估计

将样本残差的表达式代入式(3.2.1)有:

Q =■ε2■ =■(yi - ■i)2 =■[yi - (■0 + ■1xi)]2(3.2.2)

因此,普通最小二乘原理要求在给定的样本观测值下,选择适当的■0和■1,使得εi对所有的i的平方和达到最小。这种估计回归参数的方法称为普通最小二乘法(Ordinary Least Squares,OLS),采用OLS估计出来的参数称为普通最小二乘估计量(Ordinary Least

Squares Estimator,OLSE)。

从式(3.2.2)可以看到,Q是■0和■1的二次非负函数,根据二次非负函数的特征可以知道,Q的极小值总是存在的。因此,根据微积分学的运算知道,当Q分别对■0和■1

的一阶偏导数为0时,Q达到最小,即

■ = -2■[yi - (■0 + ■1xi)] = 0■ = -2■[yi - (■0 + ■1xi)]xi = 0(3.2.3)

由于 εi = yi - ■i = yi - (■0 + ■1xi)

所以,式(3.2.3)可以写成: ■εi = 0■εixi = 0(3.2.4)

式(3.2.4)是以■0和■1为未知数的方程组,简称为正规方程组。

解正规方程(3.2.3),得■0和■1估计量的表达式为:

■0 = ■ - ■1■■1 = ■(3.2.5)

式(3.2.5)中,■表示yi(i = 1,2,3,…,n)的均值,■表示xi(i = 1,2,3,…,

n)的均值,即

■ = ■■yi ■ = ■■xi

而■i、■i分别表示xi和yi的中心化变量,即

■i = xi - ■ ■i = yi - ■

在上面推导■的过程中,用到了中心化变量的一些性质:

①■■i = 0;■■i = 0 ②■■i■i =■■iyi =■xi■i

从下面开始,为了简化,求和符号都没有带上起始和截止期,除了特别标明,直接用■

xi表示■xi。

普通最小二乘估计量■0、■1具备以下一些性质:

①用普通最小二乘估计法估计出的样本回归线经过样本均值点

由式(3.2.5)■0的表达式■0 = ■ - ■1■变形得:

■ = ■0 + ■1■

②样本残差和为0,即正规方程组(3.2.4)的第一个表达式

■εi = 0

③样本残差与解释变量的积的和为0,即正规方程组(3.2.4)的第二个表达式

■εixi = 0

可以利用性质②和性质③检验最小二乘法估计结果是否正确。

④样本残差与被解释变量的估计量的积的和也为0,即

■ εi■i = 0

第三节 参数最小二乘估计量的统计性质 参数最小二乘估计量的统计性质

对于估计出的样本回归模型的参数,需要考虑估计量的好坏,即能否作为总体回归模型参数的很好近似。实际上,由于所选估计方法的不同,再加上所抽取样本的随机性,使得估计出的样本回归模型的参数都和总体回归模型参数的真值存在差距。为了对参数

估计量的好坏进行判断,必须对估计量的统计性质进行检验。

衡量估计量好坏的统计指标依据样本容量的大小分为小样本性质(Small Sample Proper-ties)和大样本性质(Large Sample Properties)或渐进性质(Asymptotic Properties)。小样本性质有:①线性,即它是否是另一变量的线性函数;②无偏性,即它的期望值是否等于总体的真值;③最小方差性或有效性,即在所有的线性无偏估计量中,它的方差是否最小。大样本性质则包括:①渐近无偏性,即当样本容量趋于无穷大时,它的均值趋于总体真值;②一致性,即当样本容量趋于无穷大时,它是否依概率收敛于总体真值;③渐进有效性,即当样本容量趋于无穷大时,在所有的一致估计量中,它的方差最小。 如果一个估计量具备线性、无偏性以及最小方差性,则称这个估计量是最优线性无偏估计量(Best Linear Unbiased Estimator,BLUE)。具备最优线性无偏估计量性质的估计量的性质不依样本容量大小的改变而改变。但是,在小样本容量下,有时估计量并不具备最优线性无偏估计量的性质,这时就可以扩大样本容量来考察参数估计量的大样本

性质。

下面我们分别讨论一元线性回归模型参数估计量的线性、无偏性以及最小方差性。

一、线性

所谓线性是指■0和■1是yi或μi的线性函数。

由式(3.2.5)中■1的表达式可以得到 ■1 = ■ = ■ =■kiyi(3.3.1)

其中,ki = ■

式(3.3.1)表明■1是yi的线性函数。 同样,由式(3.2.5)中的■0表达式有

■0 = ■ - ■1■ = ■■yi -■ki■yi =■■yi(3.3.2)

所以,■0也是yi的线性函数。

现在证明■1、■0也是随机项μi的线性函数。

由式(3.3.1)可以得到:

■1 =■kiyi =■ki(β0 + β1xi + μi) = β0■ki + β1■kixi +■kiμi

由于

■ki = ■ = ■ = 0 ■kixi = ■ = ■ = 1

所以,■1 = β1 +■kiμi(3.3.3) 即■1是随机项μi的线性函数。

由式(3.3.2)可得:

■0 =■■yi =■■(β0 + β1xi + μi)

= β0■■ + β1■■xi +■■μi

= β0 +■■μi(3.3.4)

所以,■0也是随机项μi的线性函数。

二、无偏性

所谓无偏性是指■0、■1的期望值分别等于β0和β1。

对式(3.3.3)两边取期望值,有:

E(■1) = β1 +■kiE(μi) = β1(3.3.5)

表明■1是β1的无偏估计量。

同样,对式(3.3.4)两边取期望值,有: E(■0) = β0 +■■E(μi) = β0(3.3.6)

即■0也是β0的无偏估计量。

三、最小方差性

首先求出参数估计量■1和■0的方差,然后证明■1和■0在β1和β0的所有线

性无偏估计量中方差最小。 由式(3.3.3)有:

Var(■1) = Var(β1 +■kiμi) = σ2■k2■

= ■(3.3.7) 由式(3.3.4)有:

Var(■0) = Var■= σ2■■■

= σ2■■ = σ2■(3.3.8)

有时,也将式(3.3.8)写成: Var(■0) = σ2■(3.3.9)

证明■1在β1的所有线性无偏估计量中方差最小,证明过程见附录1-1。 同样,设■0*是利用其他方法估计出的参数■0的线性无偏估计量,采用同附录1-1

同样方法可以证明

Var(■0*) ≥Var(■0)

基于以上分析可以看到,普通最小二乘估计量具有线性、无偏性以及最小方差性等优良性质,是最优线性无偏估计量,这就是著名的高斯-马尔柯夫定理(Gauss-Markov Theorem)。但这些优良的性质依赖于对模型的基本假设,当这些基本假设不满足时,普通最小二乘估计量将不再是最优线性无偏估计量,这时必须寻求改进的估计方法,这

将在放宽经典假设的章节中进一步讲到。

由于具备最优线性无偏估计量性质的估计量的性质不随样本容量大小的改变而改变,因此,普通最小二乘估计量自然也具备大样本性质。证明过程见附录1-2。

第四节 参数最小二乘估计量的概率分布及随机项方差的估计量 参数最小二乘估计量的概率分布及随机项方差的估计量

一、参数最小二乘估计量的概率分布

从第三节我们看到,参数估计量■0、■1都是随机项μi的线性函数,而μi都服从正态分布,因此,■0、■1也服从正态分布。■0、■1的期望值分别为β0和β1,它们的方差分别见式(3.3.7)和式(3.3.8),所以,参数估计量■0、■1服从的抽样分

布为:

■0 ~ N■(3.4.1) ■1 ~ N■(3.4.2)

所以,同yi和μi一样,■0和■1也服从正态分布,但这些正态分布的方差都包含σ2,而σ2是总体随机项的方差,总体是不知道的,所以σ2实际上是不知道的。因此,严格来说,■0、■1以及yi的分布还没有确定。我们必须估计出σ2的无偏估计

量■2,然后,用■2代替σ2,才可以求出■0、■1以及yi的方差。

二、σ2的无偏估计量

因为,样本残差可以看作是总体随机项的估计量,而样本残差εi = yi - ■i,是完

全可以计算的,因此,可以用样本残差的方差来估计总体随机项的方差。

我们的目的是得到σ2的无偏估计量,因此,我们需要确定样本残差平方和的自由

度fe,使得

E■= σ2(3.4.3)

由于■ = 0 ,所以,式(3.4.3)等价于

E■= σ2(3.4.4)

可以证明fe = n - 2,其中n是样本容量,证明过程见附录1-3。

如果不进行公式推导的话,也可以从自由度的角度来推断■ε2■的自由度fe,因

为在求■ε2■时,样本残差受到正规方程(3.2.4)的约束:

■εi = 0■εixi = 0

由于样本残差εi受到两个约束,所以,样本残差平方和■ε2■的自由度应减少2

个,即为n-2个。

对于无截距模型yi = β1xi + μi而言,这时随机项方差的无偏估计是

■2= ■

因为,无截距模型只有一个未知参数,样本残差受到的正规方程的约束也只有1

个,所以样本残差平方和■ε2■的自由度是n-1,而不是n-2。

第五节 参数的显著性检验 参数的显著性检验 一、参数的显著性检验

我们已经估计出了回归方程■i = ■0 + ■1xi,但现在问题是总体回归模型中因变量y和自变量x之间确实存在线性关系吗?即β1是否等于0,为此,需要对参数β0、

β1进行显著性检验。

依据假设检验的基本知识,我们可以提出原假设H0:β1 = 0;备择假设H1:β1≠0。在原假设成立的情况下,我们可以依据样本参数估计量所服从的分布构造一种统计量,并在一定的显著性水平下与该统计分布下的临界值作比较,以做出接受或拒绝原假设的决定。假设检验有两种方法:一种是显著性检验方法;一种是置信区间法。这一

节主要介绍显著性检验方法,对置信区间法作一般性介绍。 由于参数■0和■1都服从正态分布,见式(3.4.1)和式(3.4.2)。

所以,有统计量

■ = ■~N(0,1)■ = ■~N(0,1)(3.5.1)

但这两个标准正态分布统计量中都有σ2,而σ2实际上是不知道的,因此,上述标准正态统计量是求不出来的。由于上一节已经估计出了σ2的无偏估计量■2= ■,

因此,可以考虑在式(3.5.1)中用■2代替σ2,以得到准确的分布值。

V■r(■0) = ■2 ■V■r(■1) = ■(3.5.2)

而这时统计量■,■, 不再服从标准正态分布,而是服从自由度为(n-2)的t分

布,即

■ = ■ ~ t(n - 2)■ = ■ ~ t(n - 2)(3.5.3)

式(3.5.3)证明过程见附录1-4。

所以,在原假设H0:β1 = 0成立的情况下,有统计量

T = ■ ~ t(n - 2)(3.5.4)

对给定的显著性水平(Level of Significance)α,查自由度为n-2的t分布表,得临界值(Critical Value)tα/2(n - 2),如果|T| > tα/2(n - 2),则拒绝原假设H0:β1 = 0,而接受备择假设H1:β1≠0,表明回归模型中被解释变量与解释变量间确实存在线性关系。其中α称为显著性水平(Level of Significance),1-α称为置信系数或置信

度(Confidence of Coefficient),对β0的检验可以采取同样的方法进行。 图3-2显示了参数显著性t检验在α显著性水平上的t分布拒绝域。

上述假设检验方法的不足之处在于选择显著水平α的任意性,虽然α一般取1%、5%和10%,但这些值并不是固定不变。在实践中最好用p值,即相伴概率值,也称为

统计量的精确显著水平。在Eviews软件中,回归结果都给出了相应回归参数的p值,p

值定义为拒绝零假设最低的显著水平。

二、t检验实例

例3.5.1 对于书报支出样本1的回归结果

■i = 17.8075 + 0.0407xi

我们来检验β0、β1的显著性,计算数据见表3-1。

对于原假设H0:β0 = 0,备择假设H1:β0≠0。在原假设成立的情况下,构造统

计量

Tβ0 = ■ = ■ = 10.2353

在5%的显著性水平下,自由度为8的t分布的临界值t0.025(8) = 2.306,很显然Tβ0 > 2.306,所以,否定原假设,认为常数项是显著不等于0的。而从p值的角度来看,在自由度为8时,Tβ0 = 10.2353的概率值低于0.001,即在0.001的显著性水

平下,t值是显著的。

对于原假设H0:β1 = 0,备择假设H1:β1≠0。在原假设成立的情况下,构造统

计量

Tβ1 = ■ = ■ = 7.2576

很显然,在5%的显著性水平下,Tβ1 > 2.306,所以,否定原假设,认为被解释

变量每周购买书报支出金额确实是解释变量个人每周可支配收入的线性函数。 在实际应用中,由于显著水平通常取5%,查t分布表可以看见,当自由度n-2≥13时,t分布临界值tα/2,即t0.05/2大体保持在2附近,因此,可选择简单的判断方法,当t统计值远远大于2时,且样本容量大于15左右时,则在5%的显著性水平下,可以

认为参数β显著的不等于0。

三、参数显著性检验的置信区间法

还有一种检验方法是置信区间法(Confidence Interval Method),我们以β1为例进

行说明:

由于■ ~ t(n - 2),所以,在一定的显著性水平α下,有: P-tα/2(n - 2) < ■ < tα/2(n - 2)= 1 - α(3.5.5)

对该式进行等价变形有:

P■1 - tα/2(n - 2)■ < β1 < ■1 + tα/2(n - 2)■= 1 - α(3.5.6) 即可以说随机区间(Random Interval)(■1 - tα/2(n - 2)■,■1 + tα/2(n - 2)

■)包含β1的概率是1-α,这个区间也是回归参数的区间估计。

因此,对于零假设H0:β1 = 0和备择假设H1:β1≠0,当随机区间(■1 - tα/2(n - 2)■,■1 + tα/2(n - 2)■)不包含0时,我们就可以以1-α的置信度拒绝零

假设,即表明被解释变量和解释变量间存在线性关系。

采用同样方法也可以得到β0的1-α置信度的置信区间,并对β0的显著性进行检

验。

第六节 回归方程的显著性检验 回归方程的显著性检验

第五节是检验回归参数是否显著,而本节的目的是检验样本回归方程同x和y的所

有观察值的拟合情况,检验方法包括拟合优度检验以及F检验。

一、拟合优度检验

拟合优度检验是检验样本回归方程拟合样本观察值的程度,即利用样本观察值和回归方程估计值构建一个统计量,然后与已有标准进行比较,以判断拟合好坏,下面进行

具体介绍。

1. 总离差平方和的分解

设由一组样本观察值(xi,yi)(i=1,2,3,…,n)得到的回归方程为■i = ■0 + ■1xi,则y的第i个观察值yi与样本均值■的离差yi - ■可以分解为两部分:yi - ■i

和■i - ■,即

yi - ■ = (yi - ■i) + (■i - ■)

其中,yi - ■称为因变量yi相对于均值的总离差,而■i - ■则表示总离差中被y对x的回归所解释的部分,剩余部分yi - ■i则是总离差中没有被回归解释的部分,即

残差项εi。三部分的关系见图3-3。

从总离差的分解示意图3-3可以看到,■i离yi越近,则■i - ■越大,而残差εi越小,表明回归线拟合样本点yi越好;显然,当回归线经过yi点时,这时yi - ■ = ■i - ■,即总离差就等于回归线所说明的部分,表明回归线完全拟合了观察值yi。 图3-3显示的是回归线对一个样本点的拟合,但对所有的样本点而言,则应该考察所有样本观察值的总离差平方和:■(yi - ■)2,我们将该总离差平方和进行分解

■(yi - ■)2 =■[(■i - ■) + (yi - ■i)]2 =■(■i - ■)2 +■(yi - ■i)2 + 2■(■i - ■)(yi - ■i)

=■(■i - ■)2 +■ε2■ + 2■■iεi

根据普通最小二乘估计的一些性质我们知道:■■iεi = 0,所以,上式可以简化

为:

■(yi - ■)2 =■(■i - ■)2 +■ε2■(3.6.1)

其中,我们记:

TSS =■(yi - ■)2 =■■2■

称为总离差平方和(Total Sum of Squares,TSS),表示因变量观察值偏离均值的程

度,它反映了样本观察值因变量总离差的大小。

ESS =■(■i - ■)2 =■■2■

称为回归平方和或解释平方和(Explained Sum of Squares,ESS),表示因变量估计

值偏离均值的大小,即总离差中回归方程所解释的部分。

RSS =■(yi - ■i)2 =■ε2■

称为残差平方和(Residual Sum of Squares,RSS),表示因变量观察值与估计值偏

离的大小,即总离差中回归模型没有解释的部分。

TSS = ESS + RSS

即总离差平方和等于回归平方和加上残差平方和。

2. 拟合优度

显然如果回归模型很好地拟合了样本观察值,则ESS很大,而RSS很小。如果所有因变量的样本观察值都落在回归线上,则ESS就等于TSS,而RSS等于0;反过来,如果样本回归线完全不能拟合样本观察值,则RSS = TSS,而ESS = 0。当然这两种都是极端的情况,一般的情况是ESS接近TSS,而RSS较小。因此,我们可以通过观察ESS占TSS的比重来判断样本回归线拟合样本观察值的好坏,这就是拟合优度(也有

称判定系数或可决系数,Coefficient of Determination)的基本思想。

拟合优度用R2表示: R2 = ■ = ■(3.6.2)

很显然,0≤R2≤1,R2越接近1,则拟合效果越好,R2越接近0,则拟合效果越差。当R2=0,则表明因变量y和解释变量x之间没有任何关系。因此,R2似乎和相关

系数的平方r2之间存在某种联系,实际上,从数学上来说R2 = r2,即拟合优度的大小

等于相关系数的平方,将式(3.6.2)进行变形,有:

R2 = ■ = ■ = ■2■■ = ■■■ = ■■ = r2

虽然拟合优度R2和相关系数的平方r2两者在数字上相等,但两者的含义非常不同。R2表示回归线拟合样本观察值的程度的大小或好坏,而相关系数则表明两个变量线性

相关程度的大小。

注意,计算拟合优度R2时通常假定了模型中存在截距项,因此,无截距模型不能使用这个公式,如果使用了这个公式,则得到的结果可能没有意义,因为计算出来的

R2可能为负数。

现在计算一下书报支出例子中回归方程■i = 17.8075 + 0.0407xi的拟合优度,数据

见表3-1。

ESS =■(■i - ■)2 = 341.6511 而,TSS =■(yi - ■)2 = 394 所以,R2 = ■ = 0.8671 二、回归方程显著性的F检验

和参数显著性检验的t检验不同,F检验是回归方程总体的显著性检验,即检验所有的解释变量x对y的影响的显著性,也就是检验方程整体的显著性。这实际上就是对回归方程拟合优度的检验,由于F检验是对方程所有解释变量显著性的检验,所以,采取的是联合假设,即对多元线性回归模型而言,假设所有解释变量的回归系数都等于0,在此基础上构建F统计量,然后根据回归方程以及样本观察值计算F值,最后,根

据在一定的显著性水平和自由度下F的临界值判断接不接受原假设。

在一元线性回归模型中,由于只有一个解释变量,因此原假设只假设β1 = 0,下

面介绍一下F检验的检验步骤:

第一,提出原假设H0:β1 = 0,备择假设:H0:β1 ≠ 0。

第二,构建F统计量: F = ■ = ■~F(fE,fR)(3.6.3)

证明该统计量在原假设成立的基础上服从F分布的过程见附录1-5。

第三,根据样本观察值和回归结果计算该F统计量。

第四,对给定的显著水平α,查F分布表,并确定F分布的临界值Fα(fE,fR),比较F统计量和Fα(fE,fR)的大小;如F > Fα(fE,fR),则拒绝原假设H0,可以认为在1-α概率水平下,所有解释变量对y的影响都显著,即回归方程在总体上是显著的;反之,若F < Fα(fE,fR),则不能拒绝原假设H0,说明至少在1-α概率水平下,不能认为所有解释变量对y的影响都显著,即回归方程估计不可靠。图3-4

是显著性水平为α时F检验的拒绝域。

在统计量的自由度问题上,由于TSS = ESS + RSS,因此,由平方和的分解定理可

知,TSS、ESS以及RSS的自由度fT、fE和fR满足如下关系:

fT = fE + fR(3.6.4)

由于前面已证明残差平方和RSS的自由度是n-2,而总离差平方和■(yi - ■)2受到一个约束,即■(yi - ■) = 0,所以其自由度减1,为n-1,从而回归平方和的自

由度仅为1。

即 fT = n - 1,fE = 1,fR = n - 2。

三、回归方程显著性检验实例

例3.6.1 下面根据上述F检验方法检验一下书报支出例子中回归方程的显著性,数

据见表3-1。

F = ■ = ■ = 52.2114

当显著性水平α=0.05,自由度为(1,8)时,F分布的临界值F0.05(1,8) = 5.32,

显然

52.2114 > 5.32

所以,在95%的概率上可以说回归方程■i = 17.8075 + 0.0407xi从总体上来说是显

著的。

在一元线性回归模型中,F检验和t检验是一致的。由于一元线性回归模型只有一个解释变量,所以,F检验和t检验都是针对相同的原假设H0:β1 = 0和备择假设H1:

β1 ≠ 0进行检验,而且F统计量和t统计量还有如下关系:

F = ■ = ■

= ■ = ■■ = t2(3.6.5)

四、F统计量与拟合优度的关系

拟合优度检验和F统计量检验都是检验方程总体是否显著的统计量,但两者检验的角度不同,是同一问题的两个不同方面。拟合优度是在已经得到回归方程的基础上检验回归方程拟合样本点好坏的程度;而F检验是从样本观测值出发检验回归方程总体的显著性。因此,两者存在明显的关联性,方程拟合样本点的程度越高,即拟合优度越高,则方程从总体上就越显著,因此,F检验其实可以看作是对拟合优度的检验,下面

看一下这两个统计量的数量关系。

F = ■ =(n - 2)■ = (n - 2)■ = (n - 2)■(3.6.6) 从式(3.6.6)可以看到,R2越大,则F越大,两者呈正相关关系。

第七节 一元线性回归模型的预测问题 一元线性回归模型的预测问题

预测可分为无条件预测和有条件预测。在预测期自变量xf已知的情况下,预测相应因变量yf的值,这种预测就称为无条件预测;在预测期自变量xf未知的情况下,但可以通过其他方法得到预测期自变量xf的估计值,再来预测相应因变量yf的值,这种预测就称为有条件预测。由于有条件预测只相当于在无条件预测的过程中增加了一个估计预测期自变量的估计值■f的过程,除此之外,没有太大的差别,为简便起见,本节

只介绍无条件预测。

预测又包括两个方面,即点预测和区间预测。顾名思义,点预测是指估计与预测期自变量xf相对应的因变量的预测值■f,由于回归模型■i = ■0 + ■1xi(i = 1,2,3,…,n)中相应回归参数■0和■1都随样本观测值的变化而变化,是随机性变量,因此,严格来说,得到的■f应是预测值的一个估计值,而预测值则是以某一置信度处于以估计值■f为中心的一个区间内。因此,更应该进行区间预测,即预测因变量估计值的概率

区间。 一、点预测

假设总体回归模型为:

yt = β0 + β1xt + μt (t = 1,2,3,…,n)(3.7.1)

其中,t表示第t个抽样时期,也就是说基于1,2,…,n个时期的样本对该回归

模型进行估计,估计结果为: ■t = ■0 + ■1xt(3.7.2)

现在假设需要对样本外的某个时期tf进行预测,时期tf的自变量x■已知,则根据

式(3.7.2)可以很容易得到时期tf的因变量y■的估计值

■■ = ■0 + ■1x■(3.7.3)

这个估计值就是时期tf的因变量的点预测值。

点预测值■■既可以看作是条件均值E(y/xt = x■)的无偏估计,也可以看作是个

别值y■的无偏估计,下面分别进行证明: E(y/xt = x■) = β0 + β1x■

E(■■) = E(■0 + ■1x■) = β0 + β1x■

所以

E(■■) = E(y/xt = x■)

即点预测值■■是条件均值E(y/xt = x■) 的无偏估计。

而个别值为:y■ = β0 + β1x■ + μ■

所以

E(y■) = E(β0 + β1x■ + μ■) = β0 + β1x■ = E(■■)

表明点预测值■■也是个别值y■的无偏估计。

二、区间预测

区间预测的基本思路是首先构建预测值的t统计量,然后在一定置信水平下得到该统计量的置信区间,经过等价变形后,即可得到该统计量在一定置信水平下的预测区间。

可见,区间预测的关键是得到预测值的t统计量。

下面分别介绍总体条件均值E(y■/xt = x■)的区间预测和个别值y■的区间预测。

1. 总体条件均值E(y■/xt = x■)的区间预测

下面在求条件均值的预测区间时将E(y■/xt = x■)简写为E(y■)。

基本思想:因为■■ = ■0 + ■1x■,而■0、■1都服从正态分布,所以■■也服从正态分布,因而统计量T = ■ = ■~t(n - 2),其中V■r(■■)是Var(■■)中σ2用无偏估计量■2= ■代替后得到的估计量,有了服从t分布的统计量T = ■,我们就可以得到E(y■)的一定置信水平下的置信区间,即得到条件均值E(y■)的

预测区间。

下面介绍求V■r(■■)的过程:

Var(■■) = Var( ■0 + ■1x■) = E[(■0 + ■1x■) - E(■0 + ■1x■)]

2

= E[(■0 - β0) + (■1 - β1)x■]2(3.7.4)

■0 = β0 +■■μt ■1 = β1+■ktμt

所以

(■0 - β0) + (■1 - β1)x■ =■■μt +■ktμtx■

= ■■μt

其中,■■ = x■ - ■ = x■ - ■■xt 从而式(3.7.4)可以进一步化简为:

Var(■■) = E■2

=■■2σ2 = ■ σ2(3.7.5)

在式(3.7.5)的证明过程中,利用了相互的随机变量和的方差等于方差的和的

基本定理,以及■kt = 0、■k2■ = 1/■■2■的结论。

所以,将式(3.7.5)中的σ2用它的无偏估计量■2= ■代替就可以得到V■r(■

■),即

V■r(■■) = ■ ■2(3.7.6)

从而

T = ■ = ■~t(n - 2)(3.7.7)

在显著性水平α下,该T统计量1-α的概率区间为: P-tα/2(n - 2) < ■ < tα/2(n - 2)= 1 - α(3.7.8) 经过等价变形,得到E(y■)的1-α的置信区间为:

■(3.7.9)

2. 个别值y■的区间预测

基本思想:由于需要利用■■来估计y■的置信区间,而且点预测值■■是个别值y■的无偏估计,即E(■■ - y■) = 0,所以,考虑利用(■■ - y■)来构建T统

计量,即

T = ■ ~ t(n - 2)(3.7.10)

其中,V■r(■■ - y■)是Var(■■ - y■)中σ2用无偏估计量■2= ■代替

后得到的估计量,这样就可以得到y■的基于■■的置信区间。

所以,首先必须求得Var(■■ - y■),考虑到■■ = ■0 + ■1x■,即■■依赖于■0和■1,而■0和■1只与样本期间的随机项μt(t = 1,2,3,…,n)有关,而y■ = β0 + β1x■ + μ■,即y■只与样本期外的tf期的随机项μ■有关,而不

同时期的随机项不相关,从而使得■■和y■也不相关,于是有

Var(■■ - y■) = Var(■■) + Var(y■) = ■ σ2 + σ2 = ■ σ2(3.7.11)

从而

V■r(■■ - y■) = ■ ■2(3.7.12) 所以,可以得到y■的1-α的置信区间为:

■ (3.7.13)

下面我们来看一下个别值y■的预测区间与总体条件均值E(y■) 的预测区间与

哪些因素有关。

比较一下式(3.7.9)和式(3.7.13)可以看到:

(1) 个别值y■的预测区间较总体条件均值E(y■) 的预测区间宽,即在相同的置信水平下,个别值y■的预测误差较总体条件均值E(y■) 的预测误差要大。这

主要是由Var(■■ )和Var(■■ - y■) 的大小不同所致。

(2) 其次,样本容量n越大,y■和E(y■) 的预测区间越小,即预测越精确。 (3) 当样本越分散,即■■t越大,则y■和E(y■) 的预测区间越小,即预

测越精确。

如果对所有的与自变量xt相对应的yt的个别值和总体条件均值进行区间预测,在同样的置信水平1-α下,将各自的预测区间端点连接起来,就分别得到yt的个别值和总体条件均值的置信带(Confidence Band)或置信域(Confidence Zone),见图3-5。 图3-5是yt和E(y■) 的预测区间示意图,从图上可以看到,yt的预测区间较E(yt) 的预测区间宽。此外,还可以看到,当预测点xt靠近x时,yt和E(yt) 的预

测区间都变小,即预测精度提高;反之,当预测点xt远离x时,yt和E(yt) 的预测

区间都变大,即预测精度降低。

三、预测实例

例3.7.1 在书报支出例子中,得到的样本回归函数为:

■i = 17.8075 + 0.0407xi

则若每周个人可支配收入为600元时,有 ■f = 17.8075 + 0.0407 × 600 = 42.2275(元)

则42.2275元可以作为总体均值E(y/x=600)的预测值,也可以作为某个每周可支

配收入为600元时,其书报支出的估计值。 而V■r(■f) = ■■ = ■■ = 3.9705

■= 1.9926

V■r(■f - yf) = ■■ = ■■ = 10.4568

■= 3.2337

从而,E(y/x=600)的95%的置信区间为:

(42.2275 - 2.306 × 1.9926,42.2275 + 2.306 × 1.9926)

即(37.6326,46.8224)。

而某个每周可支配收入为600元时,其书报支出yf的95%的置信区间为:

(42.2275 - 2.306 × 3.2337,42.2275 + 2.306 ×3.2337)

即(34.7706,49.6844)。

第八节 一元线性回归模型的应用实例 一元线性回归模型的应用实例

例3.8.1① 这一节通过一个具体的例子介绍Eviews6.0软件在一元线性回归模型分析中的应用。考察外国直接投资对涉外税收的影响。选择1992~2006年的外国直接投资(FDI,亿美元)以及涉外税收(FT,亿元)的样本来分析外国直接投资对涉外税收的

贡献,数据见表3-2。 一、建立理论模型

本例建立如下一元线性回归模型: FTt = β0 + β1FDIt + μt(3.8.1)

该模型中FT表示涉外税收,FDI表示外国直接投资。

二、利用Eviews6.0软件估计模型

利用Eviews6.0进行估计,得到估计结果如表3-3所示。

回归结果的报告通常写成如下的形式:

■T = -3343.554 + 12.8657FDI (-4.0458) (7.4284)(3.8.2)

R2 = 0.8093,F = 55.1804,Prob(F-statistic) = 0.000005。

其中方程(3.8.2)中括号内的数据表示相应回归参数的t检验值。R2是拟合优度;F是方程显著性检验统计量;Prob(F-statistic)是F检验的伴随概率,也可以看作是拒绝F检验原假设的最小p值。表3-3中其余各项统计量的具体含义将在第四章多元线性

回归模型中介绍。 三、检验模型

从回归估计的结果来看,模型拟合较好。拟合优度达到0.81,表明模型从整体上拟合样本较好。F统计量值为55.18,其显著性水平为0.0000,表明方程从总体上显著,即线性关系显著成立。从截距项和斜率项的t检验值和p值看,t值都显著大于5%显著

性水平下自由度为n-2=15-2=13的临界值t0.05/2(13) = 2.160,其实这也可以从p值看出,截距项和斜率项的p值分别为0.0014和0.0000,表明最低可在0.0014和0.0000的显著水平上拒绝截距项和斜率项为零的原假设。回归结果表明在1992~2006年期间,FDI每增加1亿美元,涉外税收将增加12.8657亿元人民币,而截距项大多数时候并没

有明确的经济含义。 四、预测

假设 2007年,我国引进FDI约为770.19亿美元,由上述回归方程可以得到2007

年我国涉外税收对数值预测的点估计值为:

FT2007 = -3343.554 + 12.8657 × 770.19 = 6565.4795

则,FT2007 = 6565.4795(亿元)

下面给出2007年我国涉外税收的预测区间。由Eviews软件可知,■ε2■ =

13350487,FDI的样本均值为452.6133,样本方差为24453.55。 于是在95% 的置信水平下,E(FT2007)的预测区间为:

6565.4795 - 2.160 × ■= 5249.8236 6565.4795 + 2.160 × ■= 7881.1354

所以,E(FT2007)的预测区间为(5249.8236,7881.1354)。 同样,在95% 的置信水平下,FT2007的预测区间为:

6565.4795 - 2.160 × ■= 4011.5927 6565.4795 + 2.160 × ■= 9119.3663

所以,FT2007的预测区间为(4011.5927,9119.3663)。

第九节 极大似然估计法 极大似然估计法

这一节我们介绍应用极大似然原理(Maximum Likelihood,ML)估计一元线性回归模型参数的方法。本节将证明,只要随机项μi服从正态分布,参数β的极大似然估计量(Maximum Likelihood Estimator,MLE)也是OLS估计量,但σ2的OLS估计量

和极大似然估计量略有差别。 一、极大似然估计法的基本思想

极大似然估计法包括有限信息极大似然估计(Limited Information Maximum Likelihood,LIML)法和完全信息极大似然估计(Full Information Maximum Likelihood,FIML)法,本节介绍的是有限信息极大似然估计法。极大似然估计法是依据极大似然原理发展起来的一种参数估计方法,虽然应用没有普通最小二乘法普遍,但它在计量经济学中占有很重要的地位,因为极大似然原理比普通最小二乘原理更本质地揭示了通过样本估计总体参数的内在机理。计量经济学理论的发展,更多的是以极大似然原理为基

础。

极大似然估计法和普通最小二乘估计法是从两种不同思想出发的参数估计方法。极大似然估计方法的基本思想是:当从总体中随机抽取n组样本后,参数估计值应使得该随机抽取的n组样本观测值的联合概率为最大;而普通最小二乘法的基本思想是:当从

总体中随机抽取样本后,参数估计值应使得回归模型最好的拟合样本观测值。

二、极大似然估计法估计参数的过程

现在介绍利用极大似然估计方法估计参数的基本过程:如果总体服从的分布已知,且已经知道总体的参数,则由抽取的样本可以直接计算其样本观测值的概率。如果已经知道总体服从的分布,但分布的参数未知(线性回归模型就是这种类型),例如,假设

总体Y的概率密度函数为f(y;β1,β2,…,βn),其中,β1,β2,…,βn表示总体分布的n个参数。若Y是离散性分布,则f(y;β1,β2,…,βn)表示概率p(Y = y)。这时从总体中随机抽取n组样本Y1,Y2,…,Yn,则这n组随机样本的联合概率密度函数为■f(yi;β1,β2,…,βn),若Y是离散性分布,则可用n组离散性随机样本的联合概率密度函数表示概率P(Y1 = y1,Y2 = y2,…,Yn = yn)。

我们记函数:

L=L(β1,β2,…,βn/yi)=■f(yi;β1,β2,…,βn)(3.9.1) 为似然函数(Likelihood Function),显然该似然函数表示n个样本观测值的联合概率。极大似然估计法的基本思想是参数β1,β2,…,βn的估计值■1,■2,…,■n应使得该联合概率密度函数最大,即这n组样本观测值出现的概率最大。根据微积分算的基本知识我们知道,要使得似然函数L取极大值,则■1,■2,…,■n应满

■ = 0■ = 0 ■■ = 0(3.9.2)

因为,L和lnL的极大值在同一参数处达到,所以,在实际计算过程中,通常不是求似然函数L的极大值,而是求其自然对数lnL的极大值, 这样就能将L的乘积形式

转化为lnL的求和形式,从而简化运算,即 ■ = 0■ = 0 ■■ = 0(3.9.3) 从而得到■1,■2,…,■n估计量。 三、一元线性回归模型的极大似然估计法

对于一元线性回归模型 yi = β0 + β1xi + μi

当假定随机项μi服从正态分布N(0,σ2)时,则yi也服从正态分布,即

yi~N(β0 + β1xi,σ2) 从而总体yi的概率密度函数为:

f(yi;β0,β1,σ2)=■exp-■(yi - β0 - β1xi)2(3.9.4)

现有从总体中随机抽取的n组样本yi,xi(i = 1,2,3,…,n),则该n组样本的

似然函数为:

L = L(β0,β1,σ2/y1,y2,…,yn;x1,x2,…,xn)

= ■nexp-■■(yi - β0 - β1xi)2(3.9.5)

根据上面的极大似然估计法估计参数的过程可知,参数β0,β1和σ2的估计量使

似然函数L达到极大值,也能使其自然对数达到极大值,因此有: lnL = -■ln(2π) - nln(σ) - ■■(yi - β0 - β1xi)2(3.9.6)

根据极大似然估计法的基本思想,使得对数似然函数lnL达到最大值时参数β0、β1和σ2的取值就是极大似然估计值■0、■1和■2,因此,使lnL达到最大时,有:

lnL = -■ln(2π) - nln(■) - ■■(yi - ■0 - ■1xi)2(3.9.7) 因此,根据微积分的基本知识,使式(3.9.7)分别对参数■0、■1和■2求偏导数,

有:

■ = ■■(yi - ■0 - ■1xi) = 0■ = ■■(yi - ■0 - ■1)xi = 0■ = -■ + ■

■(yi - ■0 - ■1xi)2(3.9.8) 求解联立方程(3.9.8) 有: ■0 = ■ - ■1■(3.9.9)

■1 = ■(3.9.10) ■2 = ■ = ■(3.9.11)

比较上述极大似然估计量值■0、■1和 ■2的结果与OLS估计量■0、■1和 ■

2的结果可知:

对于参数β0、β1来说,ML法和OLS法没有差别,极大似然估计量值■0、■1

也是无偏估计量。

对于σ2的估计量而言,ML法和OLS法有差别, OLS估计量 ■2是σ2的无偏

估计,而ML估计量 ■2是有偏估计量,但在大样本下具备一致性。

将式(3.9.7)中的参数■0、■1和 ■2用估计值表达式代替,得到的就是对数似

然函数(Log Likelihood)。

lnL = -■ln(2π) - ■ln■ - ■■ε2■

= -■■(3.9.12)

需要注意的是,Eviews回归结果显示的Log likelihood是常用对数的似然函数,而

式(3.9.12)是自然对数的似然函数。

本章思考练习题

1. 一元线性回归模型的基本假设有哪些? 2. 普通最小二乘法的基本原理是什么?

3. 在基本假设中,假设随机项的期望值等于零,能不能假设随机项的均值等于零?

为什么?

4. F检验和t检验有何不同?在一元线性回归模型中,二者是否具有等价的作用?

5. 随机项与样本残差是不是一回事?如果不是,二者的区别是什么? 6. 样本残差和■εi = 0是否一定成立?请给出答案并说明原因。

7. 对于线性回归模型yi = β0 + μi(i = 1,2,3,…,n),假设随机项μi满足

经典回归模型的基本假定,且Var(μi) = σ2,试证明:

(1) ■0 = ■; (2) E(■0) = β0; (3) Var(■0) = ■。

8. 证明被解释变量y的实际值的均值与估计值的均值相等,即■ = ■。 9. 下表是我国1978~2006年的历年出口总额(y,亿元)和GDP(x,亿元)的统

计数据。

假设出口总额与GDP之间存在如下的一元线性回归关系

yi = β0 + β1xi + μi

(1) 作出出口总额与GDP的散点分布图,并分别利用手工和Eviews软件估计出

口总额与GDP之间的一元线性回归模型。 (2) 解释回归参数■0、■1的经济含义。

(3) 对所估计的回归方程■i = ■0 + ■1xi进行检验。

(4) 若2007年的国内生产总值为235000亿元,求出口总额的预测值及预测区间。

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- baoaiwan.cn 版权所有 赣ICP备2024042794号-3

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务