通过本章的学习,考生应当理解和掌握如何对数据进行整理、分组、制表和画图,能够适当地选择和解释数据的各种综合指标,以便能够突出地显示数据的本技和统计含义,从而更有效地交流数据和使用数据。
第一节数据的类型
不同分类型数据描述的是事物的品质特征
度量
尺度 数量型
截面数据——不同单位同一时间 时间的关系 时间序列数据——同一单位不同时间 平行数据——不同单位不同时间
第二节 数据的整理与图表显示
一、数据的分组与频率直方图
分组的标志及方法
1.整理——分组 频数与布表
分几个组
单变量值分组——离散型的变量 (数出来的不能再分割)如人口数
2.分组的方法 数量表现比较小
组距分组——条件:离散型变量但数量比较多
所有连续变量只能用组距分组
组距 ,组数m是根据实际情况而定的
组数 最小值 最大值
组中值=
二、图形显示:饼形图、条形图、柱形图、散点图、折线图、曲线图、茎叶图。 1.饼图的作用:反映各个部分的构成各频率的总合是100%。
2.条形图和柱形图:信息的比较
条形图:不同单位,不同信息的比较 柱形图:同一单位不同时间信息的比较。
3.折线图:同柱形图作用相似,对同一的数据折线图具有唯一性(两点间有且只有一条直线)。
4.曲线图:同折线图作用相似也是表示不同时间信息的比较,但不具有唯一性。
5.散点图:表示两个变量之间的相互关系。(两个变量的任何一对取值都在平面直角坐标系上代表一个点)。
6.茎叶图:把每一个数据分解成两部分——茎与叶
它的优点在于它既保留了所有的原始数据又直观地显示出了数据的分布情况
(与条形图有相似)
第三节 数据集中趋势的度量
一、平均数
1.简单平均=(没有分组的数据)
2.加权算术平均: 是频数也叫权数 例如:求下列平均数:
X 3 4 5 6 7
(对于分组的数据)
频数v 3 4 3 2 1 X.V 3×3 4×4 5×3 6×2 7×1 平均数=
利用距中数计算的平均数不是精确的而是近似的。
二、中位数——先排队——中间位置——数值
若n为奇数,则位于正中间的那个数据就是中位数,即 就是中位数。
若n为偶数则中位数为就是中值数。
例如:
1.2、4、5、7、8 中5是中位数,4、5、2、7、8要先排序:2、4、5、7、8,中位数还是
5。 套公式=那么数是5,n表示数的位置
2.4、5、7、8、10 n为5,n+1位是7
三、众数
众数是出现次数最多的不受极端值的影响。众数的主要缺点是一个数据集可能没有众数,或众数可能不唯一,而数据集的平均数和中位数都是存在且唯一的。
四、平均数,中位数和众数的关系:
1.数据分布是对称分部时:众数=中位数=平均数
2.数据分布不是对称分部时:左偏分布时:众数<中位数<平均数 右偏分布时:众数>中位数>平均数
第四节 数据离散趋势的度量
一、极差:所有数据的最大值减去最小值的差,极差R=最太值-最小值
极差容易受极端值的影响有时是无效的
二、四分位点和四分位极差
四分位极差先排队再等分为4份 ,见课本P26图1.19,其中对应Q1,中位数为Q2,
的对应Q3,n为总个数。Q3-Q1=四分位级差,这两个点上的数值叫四分位点。
如果四分位点不是一个整数则将前后两位数相加除以2便是。
三、方差和标准差(课本P26)
方差()的计算公式为:
四、变异系数(课本P29)
变异系数是标准差与平均数的比值,即:第二章 随机事件及其概率(课本P33)
本章主要介绍随机试验和事件,事件间的关系及其运算,事件的概率与古典概型,最后是条件概率与事件的性。 第一节 随机试验与随机事件 一、随机试验 1.试验
2.随机试验 ①可以在相同条件下重复进行。
②每次试验的结果可能不止一个,但所有可能出现的结果事先知道。 ③试验结束之前,无法确定该次试验的确切结果。 二、随机事件
随机试验中各种可能出现的结果,称随机事件。 随机事件分:
1、基本事件(只出现一个结果)。
2、复合事件(由若干个基本事件组成)。
3、必然事件(把所有可能出现的结果都放在一起形成一个集合)。 4、不可能事件(一定不会发现的事件)。
三、样本空间(课本P35)
1.所有基本事件的全体所组成的集合称为样本空间,它是必然事件,因此我们也常常用表示。
2.样本空间中的每一个基本事件也称为一个样本点。
3.由若干个样本点组成的集合,即随机事件是样本空间的子集。 4.不包含任何样本点的随机事件就是不可能事件。 四、样本空间与随机事件的表示方法 1.例举法 2.描述法
第二节 事件间的关系与运算(课本P37) 1、包含关系:
或
(见课本图2.1)。
2、相等关系:A=B,A与B完全重合。
3、事件的并:A∪B例:C=A∪B表示A或B至少一个发生,或C=A+B。 4、事件的交:A∩B或A,B表示A和B同时发生。 5、互斥事件:表示A发生时B不会发生。
6、对立事件:首先A与B是互斥的,同时2者形成整个样本空间。 7、事件之差:
表示事件A发生时B不发生。
第三节 事件的概率与古典概率(课本P42) 一、频率与概率
频率:是某个变量在数据中出现的次数(是用%表示的)。 概率:经过试验,稳定的频率是概率 二、概率的性质:
1.任何事件的概率都不会是负的,非负性
;
2.规范性3.完全可加性
;
,必需是AB互斥时才成立; ;
4.不可能事件概率为零,5.两个事件差的概率; 6.对立事件概率,7.广义加法公式:
;
。
三、古典概型与计算 (一)古典概型试验
条件:1、它的样本空间只包含有限个样本点2、每个样本点的发生是等可能的。 (二)古典概率的计算
N为样本空间的点数
例:有100个产品,其中6个次品,94个正品,抽一个产品抽到次品的概率。
排列组合的有关知道
1.两个基本原理(1)加法原理;(2)乘法原理。
2.排列数。从n个不同的元素中任取m(m≤n)个元素,按照一定的顺序排成一列,叫做从n个不同的元素中取m个元素的一个排列。
3.组合数。从n个不同的元素中,任取m(m≤n)个元素成为一组,称为从n个不同的元素中取出m个元素的一个组合。 第四节 条件概率与事件的性
一、 条件概率: 1、
,B条件下A发生的概率
2、
二、概率的乘法公式
(B发生的概率×B发生条件下A也同时发生
的概率)
三、事件的性:若P(AB)=P(B)×P(A)则A、B两事件之间为性 若AB之间是的,则P(AB)=P(A)×P(B) 四、贝叶斯(Bayes)公式与全概率公式 全概率公式:
贝叶斯公:
第三章 随机变量及分布
为了更好地理解随机试验的客观统计规律性,深入研究不同随机试验的特性,我们在这一章里介绍随机变量的概念,常用随机变量及其分布,随机变量的数字特性以及它们的应用。
第一节 随机变量
按照随机变量的取值情况,一般把随机变量分为两类,即离散型(可以列举出来的)随机变量和连续型(算出来的)随机变量。
第二节 离散型随机变量 一、离散型随机变量及其分布 列举随机变量的所有取值
每个概率元素1、0≤P≤1;2、所有概率元素之和为1,∑P=1。
二、离散型随机变量的数学期望 期望值:
例:若,求,的期望值。
三、离散型随机变量的方差
第一节 随机变量
按照随机变量的取值情况,一般把随机变量分为两类,即离散型(可以列举出来的)随机变量和连续型(算出来的)随机变量。 第二节 离散型随机变量 一、离散型随机变量及其分布 列举随机变量的所有取值
每个概率元素1、0≤P≤1;2、所有概率元素之和为1,∑P=1。 二、离散型随机变量的数学期望 期望值:
2
例:X取1、2、3它的概率分别为0.5、0.3、0.2。求X的期望值,X的期望值。
三、离散型随机变量的方差
随机变量函数的方差计量 a+bx方差的计算
2
D(a+bx)=bD(X)
D(x)=3求D(3-2x) E(X)=3
=4×3=12 =(-3+X)=0
所有变量值减这组变量值的平均数,它的期望值结果为0
E(X)=3 D(X)=4 求 =0 =1
四、常用离散型随机变量 1.两点分布或(0-1)分布
两点颁布特征值:E(X)=P P(X)=P(1-P)数学期望值为P,方差为P(1-P)。 2.二项分布
例:次品率为0.05
① 从中抽取10个1个为次品,其余为正品
]
②10个中有1个正品,第2个为次品,其余为正品的概率P(概率)③10个中有2个次品
[次品位置固定时前两个为
X=K 表示做几次试验,有K次出现的概率为多少。 二项颁布率为X~B(n、p)
二项颁布期望值E(X)= np 方差D(X)= np(1-p) 3.泊松公布:X~P(
)
单位时间内某事件出现的次数
e为自然数=2.71828
当n很大并且P很小时,可以利用泊松分布来近似地计算二项分布。 泊松分布特征值:E(X)=3.泊松公布
(期望值) 标准差
D(X)=
当n很大并且P很小时,可以利用泊松分布来近似地计算二项分布。 泊松分布特征值:E(X)=
(期望值) 标准差
D(X)=
第三节 连续型随机变量
一、连续型随机变量及其概率密度函数
连续型随机变量的分布函数:F(X) F表示累积概率 F(a)≤a的概率 F(a)=p(x=a)
P(xFa)=1-F(a);P(a≤x≤b)=F(b)-F(a);P(x=a)=0 x=a的概率为0 二、连续型随机变量的数学期望值和方差 若已知E(x), 计算E(a+bx)=a+bE(x)
2
方差:若已知D(x),计算D(a+bx) = bD(X) 所有变量值减去期望值为0。 X除以标准差的方差为1。
三、常用的连续型随机变量
1.均匀分布:例50-60 60-70 70-80 40-50
2.指数分布(P80)
3.正态分布 (参照课本图型P82-83)
X~N(μ,σ)
方差为1,均值为0。
2
标准正志分布
在-1到+1之间的概率为0.6827 在-2到+2之间的概率为0.9545 -1.96到+1.96之间的概率为0.95 -3到+3之间的概率为0.9973 ① p(x<-1)=1-p(x<1) ② p(-1<x<1)=1-2p(x<1)
例:X~N(5,9),求p(4<x<6),x股从期望值
0.33的标准正态分布为0.6293 X~N(10,4)哪一个概率大
P(8≤X≤12)(概率最大);P(7≤X≤11);P(9≤X≤13);P(9≤X≤11)
第四节 二元随机变量
一、二元离散型随机变量
二、二元离散型随机变量的联合分布:P(x=xi,y=yj)=Pij 两个关系:1.0<Pij≤1; 2.∑PiJ=1。
三、边缘分布:P(x= xi)=Pi(不考虑y的聚会或X的取值) 所有数值相加,P(y=yJ)=PJ 四、x与y的相互关系
如果P(x=xi,y=yj)=P(x=xi)×P(y=yj) 五、期望值 E(x)=∑XiPi E(y)=∑yJpJ
E(x×y)=∑(xi,yi)×P(x=xi,y=yj) E(x+y)=E(x)+E(y) E(ax+by)=aE(x)+bE(y)
六、协方差:cov为x,y两个变量的协方差
Cov(x,y)>0为正相关(x与y之间)。 Cov(x,y)<0为负相关(x与y之间)。 Cov(x,y)=E(xy)-E(x)E(y) Cov(x,y)=E(xy)-E(x)E(y)=0
六、协方差:cov为x,y两个变量的协方差
Cov(x,y)>0为正相关(x与y之间)。 Cov(x,y)<0为负相关(x与y之间)。 Cov(x,y)=E(xy)-E(x)E(y) Cov(x,y)=E(xy)-E(x)E(y)=0 七、相关系数
(取值为-1——+1)
八、随机变量的方差:D(ax+by)
22
D(ax+by)=aD(x)+ bD(y)+2ab×cov(xy)
22
X,y时则D(ax+by)= aD(x)+ bD(y)成立。 2ab×cov(xy)[x,y的协方差为0]。
第五节 决策准则与决策树 一、决策的三个基本要素
1、要找出决策方案(两个以上)。 2、找出自然状态(无法控制的)。
3、收益值和损失值(找出不同方案在不同自然状态下的收益值和损失值)。
二、决策的准则
1、极大极小原则(悲观准则)。2、最大期望收益原则。3、最小期望机会损失原则(机会损失)。
三、决策树法(参照课本P96图3-10)
四、敏感性分析
第四章 抽样方法及抽样分布
第一节 抽样作用与抽样方法 1、 抽样推断 定义:抽样推断是从研究对象的全部单元中抽取一部分单元进行调查研究取得数据,并从这些数据中获取信息,以此来推断全体。
2、总体
定义:所研究对象某个数量指标值的全体称作总体。 3、样本
定义:从总体中抽取一部分总体单元叫样本。
二、抽样的作用
1、某些检验具有破坏性,只能用抽样的方法。
2、一些寺规模的社会调查,虽不具破坏性,在理论上可对全部单位进行调查,但实践上几乎是不可能的。 3、可节约费用 4、时效性
5、提高调查质量,获得更准确的数据。
三、抽样方法
(一)主观选择代表性样本(非概率抽样)
国内:典型调查;重点调查(单位数少,变量值所占总体比重大);配额调查。 国外:利益调查;目的调查。
(二)随机抽取的随机样本(概率抽样) 1、简单随机抽样
2、系统抽样(等距抽样)
3、分层抽样:等比率抽样,不等比率抽样。特点:组间差异大,组内小。 4、整群抽样:群间差异小,群内差异大。
非概率抽样的误差不可计算,概率抽样的误差可计算,这是最大区别。 第二节 抽样中经常遇到的几个问题 一、 抽样框问题
在抽样中用来代表总体并从中抽选样本的框架称作抽样框。 1、抽样框中包含多余的样本单位,不变,2、抽样框缺少了一些样本单位,
总量偏小。
总量偏小。
二、无回答问题
1、无问题。分有意和无意。
2、影响因素。①答与不答之间的差异。差异越大,误差越大。②无回答的人数比率多大。比率越大,误差越大。
三、抽样中的误差分析
1、抽样的代表性误差(可以控制) 2、偏差(人为的无法控制的) 抽样标准误差
,
即有代表性误差又有偏差为均方误差例:一组数据1、2、3,求误差的平均数
误差的平均数为3。
第三节 抽样中的三种分布及中心极限定理(重点) 一、三种不同性质的分布 1、总体分布。
2、样本分布。受总体分布的制约,但又不同于总体分布。 3、抽样分布。是样本统计量的分布,不取决于总体分布。 二、中心极限定理
定理:样本容量N增大时,不论原来的总体是否服从正态分布,其样本均值将趋向于正态分布。
第四节 一些常用的抽样分布(重点)越少情欲越来越多的城市,如果春天象征原 一、 样本均值的抽样分布 1、分布
总体分布 正态 非正态 2、正态分布特征值 若已知①有限总体
的分布 正态 正态 n容量增大n≥30 非正态 n<30 重复:样本均值方差
不重复:
例:X~N(10,9) n=10
②无限总体
P125例:4.13
二、样本比例的抽样分布
大P表示样本比例,小P表示总体的比例
P的抽样分布
第五节 几个重要的小样本抽样分布 一、t分布
总体方差
若σ未知,用样本方差S代替σ
2
2
2
服从于t的自由系分布。
N≥30时, 仍然接近于正态分布
N<30时,
自身度为n-1的t分布
2
二、X 分布(卡方分布)
自由度为1。
求和三、F分布
第五章 参数估计
第一节 参数估计的一般问题 一、多参数估计(唯一)
参数:说明总体特征的一些数值。如总体的均值、比例、方差。 参数估计:①全面调查进行计算(不可行)。
②抽样调查用样本进行推断。
二、估计量和估计值
估计量是样本的一个函数,用样本平均收入推断总体平均收入(唯一,确定)。样本是随机的,样本估计量是一个随机变量。
三、估计的方法、类型
估计可以分为点估计和区间估计。(P136)
四、评价估计量的标准 1、无偏性(偏差为0)
2、有效性。方差最小(无偏估计量本)
3、一致性。随着样本容量上升,误差越来越小。
五、样本的数字特征与参数的点估计
1、总体平均数的估计量——样本平均数。 2、总体比例估计量——样本比例 p=P(样本比例)
2
3、总体方差估计量(样本方差S)
4、总体标准差估计量σ- S E(S)≠σ
因为分母为n-1,所以E(S)=σ
22
第二节 总体均值的估计 (总体均值);
(总体比例);
(总体比例差)
(两个总体均值之差);
一、总体分布方差σ已知,用Z代表大样本
2
重复抽样;的置信度为90%时,的置信度为95%时,置信度为95.45%时,置信度为99.73%时,
=1.5 =1.96 =2 =3
不重复抽样。
二、总体正态分布、方差未知、大样本
重复抽样;不重复抽样。
三、总体正态分布、方差未知、小样本
重复抽样;
四、总体非正态分布、大样本
不重复抽样。
调整系数
五、非正态分布、小样本、方差已知
置信度=
一、总体正态分布、方差未知、小样本
重复抽样;
二、总体正态分布、方差未知、大样本
不重复抽样。
重复抽样;不重复抽样。
三、总体非正态分布、大样本
调整系数
四、非正态分布、小样本、方差已知
置信度=
第三节 总体比例的区间估计
大样本: P(1-P):比例的方差(重复抽样)
不重复抽样×调整系数:
(1)
(2)
允许误差(人为忘的)
第四节 两个均值或两个比例之差的区间估计
一、两个总体均值之差
1、两个总体均为正态分布或大样本
抽样标准误差
区间估计为:
2、正态分布,方差未知,小样本 假定两个总体方差相等
方差未知,小样本
3、成对观测的两个正态总体均值之差的估计 成对观测:同一种现象进行的两种不同的观测。
计算的对差
二、两个比例之差的区间估计 若1<0.5 np≥5
第五节 样本容量的确定
一、影响样本容量的主要因素: 1、置信度与n之间的关系。
2、置信区间与n之间的关系(区间加大,n减小;区间变小)。 3、总体内部的差异程度与n的关系。
4、抽样方式(重复、不重复)与n之间的关系。 二、样本容量的确定
1、估计总体平均值时,n=?
△:允许误差 重复:
不重复: 表示重复抽样条件下的样本容量
2、估计总体比例时
不重复:
第六章 假设检验
第一节 假设检验的基本概念 一、原假设和备择假设
原假设:H0命题,H0:U=10,U≥10。 备择假设:H1:U≠10,U<10。
二、检验统计量
三、假设检验的基本思想——小概率原理 正好抽取到0.27%部分,就可以否定x =10
四、接受域和拒绝域
若在小概率范围的区域 例:<-n,>n(0.27内) 称<-n,>n为拒绝域
五、显著水平=>α
原假设为真的,但我们却错误地拒绝了它,而这种可能性是多少?就是显著水平α(也就是小概率原理)
六、双侧检验与单侧检验
H0:u=10 →双侧假设(α) (查α/2)
H1:u≥10
H2:u≤10 单侧检验(eg1<3) (查α) 七、假设检验中两类错误 弃真错误——同第五点α 取伪错误——样本本是假的β
弃真错误减少则取伪错误增加=> 两者成反比 我们只能控制“弃真错误” 八、基本步骤
1、原假设和备择假设
H0:u=u0 H1:u≠u0 拒绝域两边 H0:u≥u0 H1:u<u0 拒绝域左边
H0:u≤u0 H1:u>u0 拒绝域右边
=>①等号一定在原假设上;②(单侧检验);③一般把希望拒绝的假设放在原假设中(对立方不一样),(拒绝的错误,就是弃真错误,更直观地知道)在中立立场上,把可能拒绝的放在原假设中。 三种形式,希望拒绝;可能拒绝; 2、确定检验统计量确定,Z,t,(K)
3、显著水平、查临界值(拒绝可以接受的交叉点) →注,双检检验用4、作决策结论:当 当
,单侧
)时为拒绝。
>临界值(
<临界值则没有充分理由来拒绝。
第二节 参数的假设检验
一、一个总体的均值的假设检验
二、一个总体的比例的假设检验(Z) 三、两个总体均值之差的检验
P:样本比例
1、 正态、已知
2
2、大样本的(方差未知用S代,同1) 3、正态、小样、
未知
计算
2、估计总体比例时n=? (重复:
)(△总绝对误差)
(或抽样比n/N<0.05时)
不重复:
r=△/P △=rp(↓)
三者与样本量的关系:
1、置信程度与样本量成正比,σ和Δ保持不变,置信程度要求愈高,样本量也要愈大。
2、总体方差与样本量成正比。总体的差异愈大,要求的样本量也要大。
3、允许误差与样本量成反比,允许误差放大,也就是置信区间放宽,样本量可以减少。 补:样本总体比例样本量的确定
→“△”这里允许的误差是绝对误差。
→相对误差为r=△/P若已知r相对误差,则公式:
第三节 非参数假设检验 一、分类数据的拟合优度检验 步骤:
1、提出原假设HO:总体是X分布(均匀、总体„)
2、3、
(m-r-1)
4、检验统计量-临界值,拒绝原假设,反之亦然。
二、性检验 步骤:
1、提出原假设HO:X,Y是的。
2、3、
(行-1)(列-1)
第七章 相关与回归分析 第一节 简单线性相关 一、相关关系其及表现形态 1、定义:变量间的关系
——函数关系:一个变量决定了另外一个变量,是确定的完全严格的
——相关关系:两者间有关系,一个变量不是完全由另外一个变量确定的(受其它因素的影响)
2、表现形态(相关关系的类型)
线性相关:变量这间的关系近似地表现为一条直线 非线性相关:变量之间的关系近似地表现为一条曲线
正相关:两个变量同一方向变动
负相关:两个变量相反方向变动 二、相关关系的描述与侧度
1、散点图(有无关系?关系形态?P205图) 哪个X与Y相关近?
2、相关关系的侧度——相关系数 ①简单线性相关系数
②含义v-1≤r≤1
r>0,两个变量间是正相关。 r<0,两个变量间是负相关。
,两个变量间完全线性相关
接近0,两个变量不存在线性相关关系,并不说明变量之间没有任何关系,之间可能存在(非)线性相关关系。 eg: r=0.28:只能说不存在线性相关关系,不是没关系。 反映,变量间的系数有:Cov、r 第二节 一元线性回归※ 一、回归方程与回归模型 1、回归模型:2、回归方程:3、估计的驾照回归方程二、如何估计回归方程
E(∑)=0 ∑~N(0,σ) E(∑)=0
估计值为
;
为
;
为
2
→min
1、最小二乘法;
2、回归方程参数含义:
几何意义:b0——截距;b1——斜率。 经济意义:b1——回归系数 For:
收入(x)每增加100元,储蓄额(y)平均增加0.3777万元,(x每变动一个单位,y平均变动的数值)
B与r(相关系数)的关系:
b1>0时,x、y为正相关,斜方差为正 b1<0 时,x、y为负相关,斜方差为负 三、回归方程拟合程度的分析
(SST)总变差平方和=回归平方和SSR+剩余平方和SSE
1、判定系数:
2
2
判定系数取值0≤R≤1,判定系数越大,拟合程度越高 R=1。 判定系数的经济意义
(书P215)在家庭储蓄额的总变差中,有92.29%可由家庭日收入与储蓄之间的线性关系来解,说明二者之间有较强的线性关系。
2、估计标准误差(Sy):表示y的估计标准误差。
判定系数R=1时Sy=0
四、回归方程的检验:
1、回归方程线性关系检验:
第一步:确定存假设H0,不存在线性关系。H1:存在线性关系。 第二步:F=(SSR/1)/[SSE/(n-2)]~F(1,n-2) 第三步:确定显著性水平,α,F2(1,n-2) 第四步:F1>F2(1,n-2)拒绝原假设。
2、回归系数的显著性检验 ①H0:β1=0;H1:β1≠0
2
②(Sb1为b1的标准差)
③确定α,查t分布表,
④如果拒绝H0
在一元线性回归当中,回归议程的线性关系检验和回归系数的结论是一样的,拒绝都拒绝。
五、回归方程应用 x→y(预测)
点估计:当x=x0时 ,
区间估计:均值的区间估计:;
个值的区间估计:
P207例7.2 方程截距 b0=734.69 回归系数 b1=0.31 截距标准差 Sb0=139.54 回归系数标准差 Sb1=0.01
回归平方和 SSR=81444968 剩余平方和 SSE=305795.03 1、回归方程y=734.69+0.31x 2
2、计算判定系数:R=SSR/SST 3、计算Sy
第三节 多元线性回归和非线性回归 一、多元线性回归 回归方程:估计回归方程:
1、参数估计(b0,b1,b2的计算) 方法:最小二乘法
※2、
的含义:[(
)偏回归系数]
b1含义:x2保持不变时,x1变动一个单位,y平均变动多少 b2含义:x1不变时,x2变动一个单位,y平均变动多少。
3、拟合程度 复判定系数
经济含义:y变动当中,有多少可以用x1,x2解释的
2
[一元线性回归方程中的R≤二元线性回归方程中的R2]
估计标准误差:
4、假设检验
回归方程的线性关系:
①H0:回归方程线性关系不存在(所有偏回归系数为0)。
②
③Fα(k,n-k-1)不向定自由度 ④检验统计量数值大于H0,拒绝H0
(k表示回归方程自变量个数)
回归系数检验:
5、多元的应用
二、可线性化的非线性回归 1、双曲线:(P227图)
令
2、幂函数曲线:
(求出a、b代入方程)
取对数ln ,lny=lnA+blnx,令lny=y`,lnA=a则有y`=a+bx`,blnx=x`
3、对数曲线
y=a+blnx,令x`=lnx,则y=a+bx`
4、多项式函数
令X1=X,X2=X„Xk=X,则
2
K
00:42:38
22
一元线性回归方程中R=r
2
r相关系数,b1回归系数,R判定系数,cov协方差。 反相等量之间相关方向:r、b1、cov
2
反相等量之间相关方向:r、R
第八章 时间数列分析
第一节 时间数列的对比分析 一、时间数列(t、y)两要素 ※类型:
①绝对数的时间数列,反应总规模总水平(时期指标可相加;时点指标不可相加); ②平均类的时间数列,反应一般水平; ③相对数的时间数列。
二、水平分析:序时平均数、增长量和平均增长量。
三、速度分析:发展速度、增长速度;平均速度、平均增长速度。 (一)序时平均数
1、绝对数时间数列序时平均数计算
(1)时期指标时间数列:(2)时点、指标时间数列:
连续时点数列(每一天的数值)
间隔时点数列(把有间隔的转化为连续的)
间隔不等:
2、相对数、平均数序时平均数a:y=a/b;b:
(二)增长量、平均增长量
1、增长量=报告期水平-基期水平 逐期增长:关系:逐期增长量等相应时期的累计增长量,相邻两时期累计增长量之差=逐期增长量 2、平均增长量
。
累计增长:
平均增长量=
三、速度分析
1、发展速度、增长速度
1)发展速度=报告期的水平÷基期水平×100%
环比=本期÷上期×100%;定基=报告期的水平÷固定时期水平×100% 说明:环比发展速度的连乘积=相应时期的定基发展速度
eg 00 01 02 03 04
120% 128% 140% 148%
120% 128/120 140/128 148/140
eg2 01 02 03 04
7% 8% 9% 8% 环比增长速度 107% 108% 109% 108% 定基发展速度
107%×108%×109%×108%-1
39% 43% 定基增长速度
139% 143% 累积发展速度 143/139 环比发展速度 143/139-1 环比增长速度
eg3:
1995 1996 1997 1998 1999 Y1 195 208 245 301 350 Y2 195 205 140 132 350
eg4:
5年总的投资额1000亿,现150亿(y0)
2、平均发展速度,平均增长速度 1)平均发展速度
①几何平均(水平)法
(n指发展的次数)
应用条件:从基期水平出发达到未期的水平,②累积法(方程式法)
2)平均增长速度=平均发展速度-1
eg: 01 02 03 04 8% 7% 8% 9%
四、总结P241
第二节 长期趋势分析及预测 一、时间数列构成要素 1、长期趋势T
2、季节变动S 周期固定,周期短
3、循环变动C(经济周期→宏观)周期不固定,周期长 4、不规则变动I
两种模式:Y=T×S×C×I(乘法模式);Y=T+S+C+I(加法模式)
二、线性趋势
1、移动平均法 见图P245表8.9 注意几个问题:
①移动平均后的趋势值应放在各移动项的中间位置,3项1/3不同;5项1/5不同,4/5是相同。
②其目的在于消除原数列中的短期波动,因此移动间隔的长度应长短居中。去掉I,奇数;去掉S、4、12(偶数——移正)。
2、线性模型法:y=a+bt(截距、斜率)
线性 常数B
二次曲线 t=1 y=a+b+c
t=2 y=a+2b+4c b+3c
t=3 y=a+2b+9c b+5c 2c t=4 y=a+2b+16c b+7c 2c 指数曲线 y=ab
y=ab2 b
3
y=ab b
32
①环比、发展速度大体相同时ab/ ab=b
②logg=loga+tlogb;y`=a`+b`t(对数一次差比较接近)
三、曲线趋势 1、二次曲线
2
方程:y=a+bt+ct(抛物线) 特点:二次差(应用条件) a、b、c计算
(可设t=0)
2、增长曲线
t
1)指数曲线:y=a×b;条件见eg2/P260,2种;a、b计算。
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- baoaiwan.cn 版权所有 赣ICP备2024042794号-3
违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务