第八章 虚拟变量回归
一、判断题
1.虚拟变量只能作为解释变量。(F)
2. 引入虚拟变量后,用普通最小二乘法得到的估计量仍是无偏的。( T ) 3.引入虚拟变量的个数与模型有无截距项无关。(F) 4.虚拟变量用来表示某些具有若干属性的变量。(T) 5.引入虚拟变量的个数与样本容量大小有关。(F)
二、单项选择题
1.设消费函数yta0a1Db1xtut,其中虚拟变量D1东中部0西部,如果统计检验表
明a10成立,则东中部的消费函数与西部的消费函数是( D )。
A. 相互平行的 B. 相互垂直的 C. 相互交叉的 D. 相互重叠的 2.虚拟变量( A )
A.主要来代表质的因素,但在有些情况下可以用来代表数量因素 B.只能代表质的因素
C.只能代表数量因素 D.只能代表季节影响因素
3.分段线性回归模型的几何图形是( D )
A. 平行线 B. 垂直线 C. 光滑曲线 D. 折线
4.如果一个回归模型中(包含截距项),对一个具有m个特征的质的因素要引入虚拟变量数目为( B )。
A.m B.m-1 C.m-2 D.m+1
5.设某商品需求模型为ytb0b1xtut,其中Y是商品的需求量,X是商品的价格,为了考虑全年12个月份季节变动的影响,假设模型中引入了12个虚拟变量,则会产生的问题为( D )。
A.异方差性 B.序列相关 C.不完全的多重共线性 D.完全的多重共线性 6.设消费函数为yio1D1i2D2i3D3ibxiui,其中y为消费,x为收入,虚拟
1 第一季度1 第二季度1 第三季度变量D1,该模型中包含了几,D2,D30 其他季度0 其他季度0 其他季度个定性影响因素?( A )。
A.1 B. 2 C. 3 D. 4
1 城镇家庭7. 设消费函数为yio1Db0xib1Dxiui,其中虚拟变量D,当
0 农村家庭统计检验表明下列哪项成立时,表示城镇家庭与农村家庭有一样的消费行为( A )。
A.a10,b10 B. a10,b10 C. a10,b10 D. a10,b10
ˆ100.5055.35D0.45X,其中C为消费,X为收入,虚拟变量8. 设消费函数为Ciii1 城镇家庭,所有参数均检验显著,则城镇家庭的消费函数( A )。 D0 农村家庭ˆ155.850.45X B. Cˆ100.50.45X A.Ciiiiˆ100.5055.35X D. Cˆ100.9555.35X C. Ciiii9.对于模型ytb0b1xtut,为了考虑“地区”因素(农村、城市)和“季节”因素(春、夏、秋、冬),拟引入虚拟变量,则应引入虚拟变量的个数为( B )。 A.2 B.4 C.5 D.6
10. 假设某需求函数ytb0b1xtut,为了考虑“季节”因素(春、夏、秋、冬),引入4个虚拟变量形成变截距模型,则模型的( D )
A.参数估计量将达到最大精度 B. 参数估计量是有偏估计量 C. 参数估计量是非一致估计量 D. 参数将无法估计
11. 假定月收入水平在1000元以内时,居民边际消费倾向维持在某一水平,当月收入水平达到或超过1000元时,边际消费倾向将明显下降,且消费一般随收入连续变化,则描述消费(C)依收入(I)变动的线性关系宜采用( D )。
Cta0b1Itb2D•Itut,DA.
Cta0b1Db2Itut,D01I1000元I1000元I1000元I1000元
B.
01
a0b1(ItI*)ut,I*1000元CtC. D.Cta0b1Itb2(ItI*)Dut,D、I均同上
*三、多项选择题
1.关于虚拟变量,下列表述正确的有 ( ABCD ) A.是质的因素的数量化 B.取值为l和0
C.代表质的因素 D.在有些情况下可代表数量因素 E.只代表数量因素
2.虚拟变量的取值为0和1,分别代表某种属性的存在与否,其中( BC )
A.0表示存在某种属性 B.0表示不存在某种属性 C.1表示存在某种属性
D.1表示不存在某种属性 E.0和1代表的内容可以随意设定 3.虚拟变量的特殊应用有( ABC )
A.调整季节波动 B.检验模型结构的稳定性 C.分段回归 D.修正模型的设定误差 E.工具变量法
*4.对于分段线性回归模型yt01xt2(xtx)Dt,其中( BCDE )
A.虚拟变量D代表品质因素 B.虚拟变量D代表数量因素
*C.以xtx为界,前后两段回归直线的斜率不同
*D.以xtx为界,前后两段回归直线的截距不同
E.这两段回归是无跳跃的
5.关于虚拟变量的设置原则,下列阐述正确的有( ABCDE ) A.当定性因素有m个类别时,引入m-1个虚拟变量
B.当定性因素有m个类别时,引入m个虚拟变量,会产生多重共线性问题 C.虚拟变量通常取值为0或1
D.设置虚拟变量时,基础类型、否定类型通常取值作为0,而将比较类型、肯定类型取值为1
E.虚拟变量在单一方程中,可以作为解释变量,也可以作为被解释变量 四、简答题
1.模型中引入虚拟变量的作用是什么?
答:(1)可以作为属性因素的代表;(2)可以作为某些非精确计量的数量因素的代表;(3)可以作为某些偶然因素或因素的代表;(4)可以作为时间序列分析中季节(月份)的代表;(5)可以实现分段回归或比较两个回归模型的结构差异等。 2.虚拟变量引入的方式及每种方式的作用是什么?
答:(1)加法方式:其作用是改变了模型的截距水平;(2)乘法方式:其作用在于改变了模型的截距;(3)组合方式:既影响模型的截距又影响模型的斜率。 3.什么是“虚拟变量陷阱”?
答:“虚拟变量陷阱”是指在有截距项的模型中,某一定性因素具有m个类型且引入了m个虚拟变量,则会产生完全多重共线性。 五、计算题
1. 根据某种商品销售量和个人收入的季度数据建立如下模型:
Ytb1b2D1tb3D2tb4D3ib5D4tb6xiut是否能够用最小二乘法进行估计?
其中,定义虚拟变量Dit为第i季度时其数值取1,其余为0。这时会发生什么问题,参数答:这时会发生完全的多重共线性问题;因为有四个季度,该模型则引入了四个虚拟变量。
D1tD2tD3tD4t1,显然,对于任一季度而言,则任一变量都是其他变量的线性组合,
因此存在完全共线性。当有四个类别需要区分时,我们只需要引入三个虚拟变量就可以了;
若引入四个虚拟变量,参数将不能用最小二乘法进行估计。 2.某行业利润Y不仅与销售额X有关,而且与季度因素有关。
(1)如果认为季度因素使利润平均值发生变异,应如何引入虚拟变量?
(2)如果认为季度因素使利润对销售额的变化额发生变异,应如何引入虚拟变量? (3)如果认为上述两种情况都存在,又应如何引入虚拟变量?对上述三种情况分别设定利润模型。
答:(1)假设第一季度为基础类型,引入三个虚拟变量
1第二季度1第三季度1第四季度D2;D3;D4,
0其他0其他0其他利润模型为ytb0b1xta1D2ta2D3ta3D4tut
;
;
(2)利润模型为ytb0b1xta1D2txta2D3txta3D4txtut(3)利润模型为ytb0b1xta1D2txta2D3txta3D4txta4D2ta5D3ta6D4tut
。
3.设我国通货膨胀I主要取决于工业生产增长速度G,1988年通货膨胀率发生明显变化。
(1) 假设这种变化表现在通货膨胀率预期的基点不同 (2) 假设这种变化表现在通货膨胀率预期的基点和预期都不同
对上述两种情况,试分别确定通货膨胀率的回归模型。
答:通货膨胀与工业生产增长速度关系的基本模型为Itb0b1Gtut
1年及以后引入虚拟变量D
0年以前则(1)Itb0b1GtaDtut (2)Itb0b1Gta1Dta2DtGtut
4.一个由容量为209的样本估计的解释CEO薪水的方程为:
lnY4.590.257lnX10.011X20.158D10.181D20.283D3
t=(15.3) (8.03) (2.75) (1.775) (2.13) (-2.5)
其中,Y表示年薪水平(单位:万元), X1表示年收入(单位:万元), X2表示公司股票收益(单位:万元); D1,D2,D3均为虚拟变量,分别表示金融业、消费品工业和公用业。假设对比产业为交通运输业。
(1)解释三个虚拟变量参数的经济含义。
(2)保持X1和X2不变,计算公用事业和交通运输业之间估计薪水的近似百分比差异。这个差异在1%的显著性水平上是统计显著吗?
(3)消费品工业和金融业之间估计薪水的近似百分比差异是多少?
答:(1)D1的经济含义为:当销售收入和公司股票收益保持不变时,平均而言金融业的CEO要比交通运输业的CEO多获0.158%的薪水。其他两个可类似解释。
(2)公用事业和交通运输业之间估计薪水的近似百分比差异就是以百分数解释的D3参数,即为0.283%。由于参数的t统计值为-2.5,其绝对值大于5%的显著性水平下自由度为203的t分布临界值1.96,因此这种差异统计上是显著的。
(3) 由于消费品工业和金融业相对于交通运输业的薪水百分比差异分别为0.158%与0.181%,因此他们之间的差异为0.181%-0.158%=0.023%。
5.在一项对北京某大学学生月消费支出的研究中,认为学生的消费支出除受其家庭的月收入水平外,还受在学校是否得奖学金,来自农村还是城市,是经济发达地区还是欠发达地区,以及性别等因素的影响。试设定适当的模型,并导出如下情形下学生消费支出的平均水平: (1)来自欠发达农村地区的女生,未得奖学金;(2)来自欠发达城市地区的男生,得到奖学金; (3)来自发达地区的农村女生,得到奖学金;(4)来自发达地区的城市男生,未得奖学金. 答:记学生月消费支出为Y,其家庭月收入水平为X,在不考虑其他因素影响时,有如下基本回归模型: yi01xii,
其他决定性因素可用如下虚拟变量表示:
1,有奖学金1,来自城市1,来自发达地区1,男性D1D2D3D40,无奖学金,0,来自农村,0,来自欠发达地区,0,女性则引入各虚拟变量后的回归模型如下:Yi01Xi1D1i2D2i3D3i4D4ii分()来自欠发达农村地区的女生,未得奖学金时的月消费支出;1EYi|Xi,D1iD2iD3iD4i001Xi分(2)来自欠发达城市地区的男生,得到奖学金时的月消费支出:EYi|Xi,D1iD2iD4i1,D3i0(0124)1Xi分(3)来自发达地区的农村女生,得到奖学金时的月消费支出:EYi|Xi,D1iD3i1,D2iD4i0(013)1Xi分(4)来自发达地区的城市男生,未得到奖学金时的月消费支出:EYi|Xi,D2iD3iD4i1,D1i0(0234)1Xi分
6. 试在家庭对某商品的消费需求函数YX中(以加法形式)引入虚拟变量,用以反映季节因素(淡、旺季)和收入层次差距(高、低)对消费需求的影响,并写出各类消费函数的具体形式。
答:引入反映季节因素和收入层次差异的虚拟变量
1,高收入1,旺季D1D2 (3分)0,淡季,0,低收入,则原消费需求函数变换为如下的虚拟变量模型:Yi1Xi2D1i3D2ii (3分)()低收入家庭在某商品的消费淡季对该类商品的平均消费支出为;1EYi1Xi (1分) (2)高收入家庭在某商品的消费淡季对该类商品的平均消费支出为:如下 EYi(3)1Xi (1分)(3)低收入家庭在某商品的消费旺季对该类商品的平均消费支出为:EYi(2)1Xi (1分)(4)高收入家庭在某种商品的消费旺季对该类商品的平均消费支出为:EYi(23)1Xi (1分)
7. 为研究体重与身高的关系,我们随机抽样调查了51名学生(其中36名男生,15名女生),并得到如下两种回归模型:
ˆ232.065515.5662hW (7.1)
t=(-5.2066) (8.6246)
ˆ122.962123.8238D3.7402hW (7.2)
t=(-2.5884) (4.0149) (5.1613)
其中,W(weight)=体重 (单位:磅);h(height)=身高 (单位:英寸)
1D0男生女生
请回答以下问题:
(1) 你将选择哪一个模型?为什么?
(2) 如果模型(7.2)确实更好,而你选择了(7.1),你犯了什么错误? (3) D的系数说明了什么? 答:
(1)选择第二个模型。因为不同的性别,身高与体重的关系是不同的,并且从模型的估计结果看出,性别虚拟变量统计上是显著的。 (2)如果选择了第一个模型,会发生异方差问题。
(3)D的系数23.8238说明男生体重平均水平比女生体重平均水平多23.8238磅。