作业指导书
统计技术基本概念
编号:WI0104-2015 序号:第一章第四节 版本:第五版第0次修订 第1页 共12页
统计技术基本概念
一.随机变量的基本概念
1.事件和随机事件
观测或试验的一种结果,称为一个事件。例如:明天的天气是晴天、阴天还是雨天,这三种可能性中的每一种都称为事件。又如:测量工件的直径所得的结果为9.91mm,9.92mm,9.93mm,…,这里每个可能出现的测量结果都称为事件。与测量结果相联系的不确定度是事件;若工作直径的真值已知,则相应的每一个误差也称为事件。
在客观世界中,我们可以把事件大致分为确定性和不确定性两类。向上抛一石子必然下落,纯水在标准大气压下加热到100℃时必然沸腾等,均属肯定事件或确定性事件。抛掷一枚硬币的结果可能正面朝上、也可能反面朝上,打靶的结果可能射中,也可能射不中等,均属可疑事件或不确定性事件。
确定性事件有着内在的规律,这一点我们比较容易看到和处理。而对于不确定性事件,虽然就每次观测或试验结果来看是可疑的,但在大量重复观测或试验下却呈现某种规律性(统计规律性)。例如:多次重复抛掷一枚硬币,会发现正面朝上与反面朝上的次数大致相等。概率论和数理统计就是从两个不同侧面,来研究这类不确定性事件的统计规律性。在概率统计中,把客观世界可能的事件区分为最典型的三种情况:
①必然事件。在一定条件下必然出现的事件,例如工件直径的测量结果为正,是必然事件。 ②不可能事件。在一定条件下不可能出现的事件,例如工件直径的测量结果为零或负值,都是不可能事件。
③随机事件。在一定条件下可能出现也可能不出现的事件,例如工件直径的测量结果出现在9.91mm与9.92mm之间,是一个随机事件。随机事件即是随机现象的某种结果。
2.随机变量
如果某一量(例如测量结果)在一定条件下,取某一值或在某一范围内取值是一个随机事件,则这样的量称作随机变量。
随机变量不同于其他变量,其特点是以一定的概率在一定的区间上取值或取某一个固定值。例如:工件直径的测量结果在(9.90~9.92mm)区间上取值的概率为0.9。由前所述可知,测量结果及其不确定度均为随机变量。
随机变量根据其取值的特征可以分为两种:
①连续型随机变量。若随机变量X可在坐标轴上某一区间内取任一数值,即取值布满区间或
作业指导书
统计技术基本概念
编号:WI0104-2015 序号:第一章第四节 版本:第五版第0次修订 第1页 共12页
整个实数轴,则称X为连续型随机变量。例如:重复测量工件直径中所得的一组观测值属于连续型随机变量。
②离散型随机变量。若随机变量X的取值可离散地排列为x1,x2…,而且X以各种确定的概率取这些不同的值,即只取有限个或可数个实数值,则称X为离散型随机变量。例如:在取有效数字的位数时,数字的舍入误差属于离散型随机变量。
3.事件的概率
随机事件的特点是:在一次观测或试验中,它可能出现、也可能不出现,但是在大量重复的观测或试验中呈现统计规律性。例如:在连续n次试验中,事件A发生了m次,m称为事件的频数,m/n则称为事件的相对频数或频率,当n极大时,频率m/n稳定地趋于某一个常数p,此常数p称为事件A的概率,记为P(A)=p。这就是概率的古典定义。概率p是用以度量随机事件A出现的可能性大小的数值。必然事件的概率为1,不可能事件的概率为0,随机事件的概率P(A)为0≤P(A)≤1。所以,必然事件和不可能事件是随机事件的两种极端情况或特例。概率可以通过一定的法则进行运算。
4.分布函数
随机变量的特点是以一定的概率取值,但并不是所有的观测或试验都能以一定的概率取某一个固定值。例如:重复测量某圆柱体直径时,作为被测量最佳估计值的测量结果是随机变量,记为X,它所取的可能值是充满某一个区间的(并非某一个固定值),此时人们所关心的问题是:它落在该区间的概率是多少?即P(a≤X≤b)=?
根据概率加法定理有
P(a≤X≤b)=P(X<b)-P(X<a)显然,只要求出P(X<b)及P(X<a)即可,这要比求P(a≤X≤b)简便得多,因为它们只依赖于一个参数。
对于任何实数x,事件(X<x)的概率当然是一个x的函数。令F(x)=P(X<x),这里F(x)即为随机变量X的分布函数。所以,分布函数F(x)完全决定了事件(a≤X≤b)的概率,或者说分布函数F(x)完整地描述了随机变量X的统计特性。 二.随机变量的数字特征
利用分布函数可以完全确定一个随机变量,但在实际问题中求分布函数不仅十分困难,而且常常没有必要。例如:测量零件的长度得到了一系列的观测值,人们往往只需要知道零件长度这个随机变量的一些特征量就够了,诸如长度的平均值(近似地代表长度的真值)及测量标准[偏]差(观测值对平均值的分散程度)。用一些数字来描述随机变量的主要特征,显然十分方便、直观、实用,在概率论和数理统计中就称它们为随机变量的数字特征。这些特征量有数学期望、方差等。
作业指导书
统计技术基本概念
编号:WI0104-2015 序号:第一章第四节 版本:第五版第0次修订 第1页 共12页
1.数学期望
随机变量X的数学期望值记为E(X)或简记为μx,用它可以表示随机变量本身的大小,说明X的取值中心或在数值上的位置,也称期望值。数学期望值表征随机变量分布的中心位置,而随机变量围绕着数学期望取值。数学期望的估计值,即为若干个测量结果或一系列观测值的算术平均值。也就是说数学期望是一个平均的大约数值,随机变量的所有可能值围绕着它而变化。
①离散型随机变量的数学期望
设某机械加工车间有M台机床,它们时而工作时而停顿(如为了调换刀具、零件和进行测量等),为了精确估计车间的电力负荷,需要知道同时工作着的机床的台数。为此作了N次观察,记下诸事件(所有机床都不工作,有1台工作,有2台工作,……,M台都工作)的出现次数分别为mo,m1,…,mM。显然,mo+m1+…+mM=N,则该车间同时工作的机床的平均数n为:
nxmii1MiNMmixixiiNi1i1 M式中:ωi表示xi台机床同时工作的频率。
当N很大时,频率ωi趋于稳定而等于概率pi,故有
nxipii1M
由上所述,本例中同时工作的机床台数X是一个随机变量,其可能值为xi(i=1~n,本例
中x1=0,x2=1,…,xn=M),相应的概率为pi(i=1~n),则其均值
xpii1MiMi即称为随机变量
的数学期望的估计值。它的一般形式为μx =E(x)=
②连续型随机变量的数学期望
xpii1Mi,而级数
xpi1i应绝对收敛。
设连续型随机变量X的分布密度函数为f(x),且X的数学期望为:
|x|f(x)dx收敛,根据类似的定义,则
作业指导书
统计技术基本概念
编号:WI0104-2015 序号:第一章第四节 版本:第五版第0次修订 第1页 共12页
xE(X)xf(x)dx
式中:f(x)dx表示随机变量X在任意一点x取值的概率。 对于任意一个具有分布函数F(x)的随机变量X而言,则有
xE(X)xdF(x)
因此,数学期望是均值这一概念在随机变量上的推广,它不是简单的算术平均值,而是以概率为权的加权平均值。
2.方差
只用数学期望还不能充分描述一个随机变量。例如:对于测量而言,数学期望可用来表示被测量本身的大小,但是关于测量的可信程度或品质高低(比如每个测得值对数学期望的分散程度),就要用另一个特征量——方差来表示。下面以两种方法对某一量进行测量所得的测量结果(列于表0104-1和表0104-2)为例,看一下哪种方法更为可信或品质更高。
按方法Ⅰ所得的测量结果 表0104-1 测量值 概 率 28 0.1 29 0.15 30 0.5
按方法Ⅱ所得的测量结果 表0104-2 测量值 概 率 28 0.13 29 0.17 30 0.4 31 0.17 32 0.13 偏差绝对值 概 率 0 0.4 1 2 31 0.15 32 0.1 偏差绝对值 概 率 0 0.5 1 0.3 2 0.2 0.34 0.26 我们比较两个表中的偏差绝对值及概率,很容易看出在没有系统效应情况下,表0104-1所用方法I的测量品质比表0104-2方法II要高。同时,也可以要看出它们的数学期望却是相等的,均为:
E(X)xipi30.0i15
这就意味着还需要用另一个数学特征量,即用方差来进一步描述随机变量的分散性或离散性。方差定义为:随机变量X的每一个可能值对其数学期望E(x)的偏差的平方的数学期望。
作业指导书
统计技术基本概念
编号:WI0104-2015 序号:第一章第四节 版本:第五版第0次修订 第1页 共12页
它描述了随机变量X的数学期望E(X)的分散程度,即
DxD(X)E[(XE(X))2]
①离散型随机变量的方差
DxD(X)(xix)2pii1
对于上述的测量实例,由表中的数据可以算出方差为: 按测量方法Ⅰ
D1(X)(xix)2pi1.10i15
按测量方法Ⅱ
D2(X)(xix)2pi1.38i15
由此可知,若方差小,各测得值对其均值的分散程序就小,则在不考虑系统效应情况下其测量品质高,或更为可信、有效。
②连续型随机变量的方差
D(X)(xix)2f(x)dx
方差D(X)的量纲是随机变量X量纲的平方。为了更为实用和易于理解起见,最好用与随机变量同量纲的量来说明或表述分散性,故将方差开方取正值得:
xD(X)
式中
x可简记为,称为测量值的标准差,亦称标准偏差或均方根偏差。
三.随机变量的基本定理
1.大数定理
对于自然界中的随机现象,虽然不可能确切地判定它的状态及其变化的规律性,但是由于人
作业指导书
统计技术基本概念
编号:WI0104-2015 序号:第一章第四节 版本:第五版第0次修订 第1页 共12页
们在长期实践中积累了丰富的经验,因而能够确定某些事件的概率接近于1或0,也就是说,在一次观测或试验中把概率接近于1或零的事件,分别看成是必然事件或不可能事件。
大数定律的意义就在于:以接近于1的概率来说明大量随机现象的平均结果具有稳定性,从而在确定不变的条件下,可把随机变量视为非随机变量。例如:气体的压力等于单位时间内撞击在单位面积上的气体分子的总效果,显然气体分子撞击的次数及速度是随机变量,但气体的压力可以认为是一个常数。
①切比谢夫定理
设X1、X2,…,Xn,…为互相的随机变量序列,同时其数学期望E(X),方差D(Xi)C(C是常数,i=1~n),则对任意的ε>0,恒有
1nlimP{|xi|}1 nni1习惯上称这个大数定理为切比谢夫定理。它的实际意义在于:当我们测量某一量时,其数学期望为,进行了n次的重复观测,观测值为xi(i=1~n),那么当n充分大时,可以用
1n算术平均值xi代替真值,以满足测量不确定度ε的要求。换言之,随机变量序列{Xn}
ni1依概率收敛于。
②贝努利定理
设在n次观测或试验中,事件A的出现次数为m,则当n无限增大时,频率m/n依概率收剑于它的概率p,即对任意的ε>0,恒有
limP{|nmp|}1 n这就是历史上最早发现的大数定理,又称为贝努利定理。它的实际意义在于:在观测或试验的条件稳定不变时,如果n充分大,则可用频率代替概率,此时频率具有很高的稳定性。
2.中心极限定理
中心极限定理粗略地说就是:大量的随机变量之和,具有近似于正态的分布。例如:在测量某量时,产生测量不确定度的随机因素很多,这些个别因素所引起的测量不确定度分量通常很小,但其总和(合成)却较大。为了研究这种合成不确定度的特性,就需要知道相互的随机变量之和的分布函数或分布密度函数的形状及其存在条件。
由概率论可以证明:若Xi(i=1,2,…,n)为分布的随机变量,则其和的分布近似于正态分布,而不管个别变量的分布如何。随着n的增大,这种近似程度也增加。通常若Xi同分布,且每一Xi的分布与正态分布相差不甚大时,即使n≥4,中心极限定理也能保证相当好的近
作业指导书
统计技术基本概念
编号:WI0104-2015 序号:第一章第四节 版本:第五版第0次修订 第1页 共12页
似正态性。这个结论具有重要的实际意义。 四.常见随机变量的概率分布及其数字特征 1.均匀分布
被测量X服从均匀分布(矩形分布),如图0104-1所示,试求其数学期望值x、方差Dx及标准[偏]差。
均匀分布 图0104-1
现设其概率分布密度为f (x),它在至区间内为一常数,令其为K,则
yf(x)K
被测量落在至区间内的概率应为1,故有:
f(x)dxKdx1
即得
K因此概率分布为:
1, 21 2yf(x)被测量的期望值为
1xxf(x)dxxdx0 2被测量的方差为(注意x0)
作业指导书
统计技术基本概念
编号:WI0104-2015 序号:第一章第四节 版本:第五版第0次修订 第1页 共12页
1Dx(xx)f(x)dxxf(x)dx222xdx223
所以标准[偏]差为
Dx3
上式即为被测量服从均匀分布时,其标准[偏]差与分散区间半宽之间的关系式。 在某一区间[,]内,被测量值以等概率落入,而落于该区间外的概率为零,则称被测量值服从均匀分布,通常记作
[,]。服从均匀分布的测量有
①数据切尾引起的舍入不确定度; ②电子计数器的量化不确定度; ③摩擦引起的不确定度; ④数字示值的分辨力; ⑤滞后;
⑥仪器度盘与齿轮回差引起的不确定度; ⑦平衡指示器调零引起的不确定度。
在缺乏任何其他信息的的情况下,一般假设为服从均匀分布。
另外,服从均匀分布的变量的正弦或余弦函数,服从反正弦分布(见图0104-2)。
反正弦分布 图0104-2
服从反正弦分布的测量有: ①度盘偏心引起的测角不确定度; ②正弦振动引起的位移不确定度; ③无线电中失配引起的不确定度; ④随时间正余弦变化的温度不确定度。 2.正态分布
作业指导书
统计技术基本概念
编号:WI0104-2015 序号:第一章第四节 版本:第五版第0次修订 第1页 共12页
被测量X服从正态分布(拉普拉斯—高斯分布)。如图0104-3(a)所示,试说明其分布密度函数中参数μ和σ的实际意义和分布曲线的特点。
正态分布的概率分布密度函数为:
f(x)1x2exp[()] x
2212
根据连续型随机变量数学期望和方差的定义,可以算得(通过简单的积分);被测量的期望值x恰为概率分布密度函数中的参数,而被测量的方差Dx恰为概率分布密度函数中的σ。这是正态分布的重要特点。对于均值为μ、标准[偏]差为σ的正态分布,通常记之以N(μ,σ)。对于均值为零、标准[偏]差为σ的正态分布,则记之以N(0,σ)。
正态分布图 图0104-3
由图0104-3(a)可见,正态分布曲线在x=μ处具有极大值,曲线不仅是单峰的,而且对
x=μ直线来说是对称的。由图0104-3(b)可见,正态分布的中心是在x=μ处,μ值的大小
决定了曲线在x轴上的位置。由图0104-3(c)可见,在相同μ值下,σ值愈大,曲线愈平坦,即随机变量的分散性愈大;反之σ愈小,曲线愈尖锐(集中),随机变量的分散性愈小。还可以看到,正态分布曲线在x =μ±σ处有两个拐点。图0104-3(d)对两条不同μ值和不同σ的正态分布曲线进行了比较。
显然,随机变量的分布是多种多样的,而正态分布在计量领域极其重要。这是因为概率论的中心极限定理表明,正态分布在测量应用中具有实际意义。例如:在3~5次的重复条件下,观测值的平均值的分布是近似正态的,而不必考虑单次观测值的分布是否为正态。
受大量、微小、因素影响的连续型随机变量,当样本大小n有限时,作出以f(x)为纵坐标的直方图。观察其图形,得到的结论是“两头少、中间多”,且图形基本上呈对称型,整个图形与坐标轴所围的面积为1。
作业指导书
统计技术基本概念
编号:WI0104-2015 序号:第一章第四节 版本:第五版第0次修订 第1页 共12页
当样本大小n充分大时,直方图将愈呈对称,而台阶形的折线也将趋于一条光滑曲线(见图0104-4)。这条曲线有如下四个特点:
①单峰性,曲线在均值处具有极大值;
②对称性,曲线有一对称轴,轴的左右两侧曲线是对称的; ③有一水平渐近线,曲线两头将无限接近于横轴;
④在对称轴左右两边曲线上离对称轴等距离的某处,各有一个拐点。
正态分布概率密度曲线 图0104-4
把从经验中得出的直方图上升为理论,找到具有上面四个特点的曲线,且曲线下的面积是1,该曲线在数学上可以由下面的函数f(x)表达出来
yf(x)1e2(x)222
这里f(x)称为概率分布密度函数,f(x)所表示的曲线称为正态分布曲线,其中μ,σ(σ>0)是正态分布的两个参数。
正态分布是人们考察自然科学和工程技术中得到的一种连续分布,是对大量实践经验抽象的结果。例如一批机器零件毛坯的重量,在相同条件下加工出来的一批螺栓口径大小,细纱的强度,同一民族同性别成年人的身体高度,射击时中靶点的横坐标(或纵坐标),测量误差等连续型随机变量,都服从正态分布。
正态分布以x =μ为其对称轴,它是正态总体的平均值。参数σ刻划总体的分散程度,它是总体的标准[偏]差。所以,正态分布曲线可由总体平均值μ及标准[偏]差σ确定下来。图0104-3(c)给出了μ相同,σ不同(σ=0.5,σ=1,σ=1.5)的正态分布图形。
由于μ,σ能完全表达正态分布的形态,所以常用简略记号X~N(μ,σ)表示正态分布。当μ=0,σ=1,X~N(0,1)称为标准正态分布。
在概率论中,X落在下述区间内的概率特别有用(图0104-5)。 P(μ-σ≤X≤μ+σ)=0.6826 P(μ-2σ≤X≤μ+2σ)=0.9545
作业指导书
统计技术基本概念
编号:WI0104-2015 序号:第一章第四节 版本:第五版第0次修订 第1页 共12页
P(μ-3σ≤X≤μ+3σ)=0.9973
重要的概率值 图0104-5
3.t分布
被测量xi~N(μ,σ),其N次测得值的算术平均值x~N,。设N充分大,
N则
xN~N(0,1)
若以有限n次测量的标准[偏]差s,代替无穷N次测量的标准[偏]差σ,则
x~t() sN式中:为自由度。上式即为服从t分布的表示式,当自由度v趋于∞时,s趋于σ,t()趋于N(0,1)。
对于t分布,t变量处于[-tp(v),+tp(v)]内的概率为p,tp(v)为其临界值
(见图0104-6)。
作业指导书
统计技术基本概念
编号:WI0104-2015 序号:第一章第四节 版本:第五版第0次修订 第1页 共12页
临界值tp() 图0104-6
t分布是一般形式,而标准正态分布是其特殊形式,t(v)成为标准正态分布的条件是当自
由度v趋于∞。
4.统计中常见术语的图示
统计分布中常见的术语(以标准正态分布为例)见图0104-7,图中
统计分布中常见术语图解 图0104-7
●置信水平(置信概率,置信度)以p表示; ●显著性水平(显著度)以表示,1p ●置信区间以[-kσ,kσ]表示;
●置信因子以k表示,当分布不同时,k值也不同。 对于正态分布而言,k,p的对应值列于表0104-3。
正态分布k,p对应值 表0104-3 p(%) K 50 0.67 68.27 1 90 1.65 95 1.96 95.45 2 99 7.58 99.73 3 对于均匀分布,k对于三角分布,k3 6
对于反正弦分布,k2