主元分析原理和算法
一.主元分析原理
1.主元分析PCA(Principle Component Analysis)是早年由Pearson在研究对空间中的一些 点进行直线和平面的最佳拟合时提出来的。后来对主元方法进行改进,并被广泛应用。
2.主元分析方法是一种将多个相关变量转化为少数几个的变量的有效成分的分析法。
这种方法的目的就是能在数据表中找到能概括原数据表中的信息或者能将一个高维空 间降维处理。
3.在现代工业过程,,往往需要测量很多过程变量,用以对过程进行检测和控制。主元分
析方法就是用少状况的量的不相关的变量携带足够的信息,来反映大量的过程变量所 包含的关与过程运行状况的信息。也就是我们只要通过对这少量不相关的量进行分析 和处理,就可以达到对整个过程进行控制的目的。
二.主元分析算法
1.假设X是一个n*m数据矩阵,其中的每一列对应于一个变量,每一行对应于一个样本。
那么矩阵X可以分解为m个向量的外积(外积就是两个等长向量的乘积,必须是列乘以 行)之和,即:
TTTXt1p1t2p2tmpm (1.1)
式(1.1)中,ti称为得分向量,pi称为负荷向量。X的得分向量也叫X的主元。 各个得分向量之间是正交的,即对任何i和j,当i≠j时,满足tTiti0。各个负荷向 量之间也是正交的,同时每个负荷向量的长度都是1,即:
piTpj0(ij);piTpj1(ij)
2.主元分析方法具体步骤:
x11x21Xxn1x12x22xn2x1mx2m(xij)nm xnm 1)原始数据标准化,以消除量纲影响:
xxijxjSj'ij (2.1)
式中:
1n1n22(xx)xjxij,Sj, ijjn1i1ni1j1,2,,m
2)计算已做标准化处理的数据变量之间的相关系数矩阵R:
r11r21R 其中:rm1r12r22rm2与
'xkr1mr2m,
rmm'rx 其元素jk表示原变量j的相关系数,
rjkrkj,
rjk(xk1nk1n'kix'i)(x'kjx'j)n''2''2(xx)(xxkiikjj)k1i,j1,2m
3)计算R的特征根和特征向量:
解特征方程IR0,常用雅可比法求出特征值,并使其按大小顺序排列,记为
1,2m,相应的特征向量记为p1,p2pm
pi(pi1,pi2,pim)
tXpi
pi方向上的覆盖程度或变化范围越大。
4)计算主元:i 主元ti代表数据矩阵X 在和这个主元相对应的负荷向量方向上的投影,它的长度 越 大,X在 若t1t2tm,那么p1将代表数据X变化最大方向,pm将代表数
i 据变化最小方向。
5)计算各主成分贡献率及累计贡献率: 贡献率:
mk1(i1,2,,m);
kk1 累计贡献率:mk1ik(i1,2,,m)
k 一般取累计贡献率达85%~95%的特征值1,2,,k所对应的第1,第2, 第k (k三.建立主元回归模型PCR1.利用前面的主元分析方法,可以将由输入变量的矩阵X分解为若干个主元:
Xtpt2pttE
T11T2Tkk选取X的前k个主元来解释X的主要信息,E代表忽略其他小的主元所引起的误差,通常E 代表测量噪声。
2.回归模型:
Yb1t1b2t2bktkTKB
T为主元回归模型系数。
其中,
Bb1b2bk可以利用数据拟合得到 3.由于
B(TT)TY。
T1TkkkYTkBXPTkXPkBX k,所以
即为采用原始变量作为输入变量的
T1TPBP(TT)TkY,其中kkkk模型参数。
4.结论:主元回归解决了由于输入变量间的线性相关而引起的计算问题。同时由于忽略了 那些次要的主元,还起到了抑制测量噪声对模型系数影响的作用。