多元统计分析-Ch6-主成分分析
Ch6 主成分分析
[TOC]
目的:根据二八定律(雾),大量有效的信息都在很少的指标中。所以PCA在尽量减少损失信息的前提下,将多个指标降维,综合成几个综合指标。
总的来说,PCA就是数据降维。但需要注意的是,得到的降维后的变量无实际意义(基本上就是原各个变量都混合一点的“大杂烩”)。
思路:选取变量的线性组合,使其maxΣ∼∑iΣi(使得这个线性组合的方差尽可能的大,接近各个分类的方差之和,进而代表总体的散布程度)。
[TOC]
6.0 引入
6.0.1 例子


方差Var(X),选取的是对角线上值最大的前四个。

计算相关系数:ρxy=Cov(X,Y)√Var(X)Var(Y), 我们选择的方差最大的四个变量中,身高与颈椎点高、腰围高之间相关性交,所以只取身高即可。
最终选取的变量是:身高和胸围。
但仍存在问题:身高和胸围仍然具有相关性,应该对其进行进一步地压缩,以选出更具有代表性的指标。
Q:是否有更具代表性一个or少数指标
代表性标准:方差最大。
6.0.2 主成分分析
记X是p维随机向量(p>1,Cov(X)=Σ),我们想基于X,找到变量Y=a′X(a∈Rp,X的线性组合),令Y的方差尽可能地大,足以代表X的散布。
a∈Rm×p,X∈Rp×1,Y∈Rm×1
因为Cov(X)=Σ,Var(a′X)=a′Cov(X)a=a′Σa,这表明若不对a施加约束,则a′X的最大方差→∞。
所以对a施加正则化约束:a′a=1,使得优化问题为: supa′a=1Var(a′X)=supa′a=1a′Σa
- a′1X是正则化系数下方差最大的X的线性组合。
- a′1X的散布程度最接近X, 是代表X的首选。
A.总体协方差矩阵的特征根与特征向量
首先,我们先回顾一下URV分解、SVD分解、Moore-Penrose伪逆:




令Σ的特征根为λ1≥⋯≥λp≥0,与这些特征根对应的正则正交特征向量为α1,⋯,αp。 易知:
α1=α1=(a11,⋯,a1p)′Var(a′1X)=a′1Σa1=λ1
- 方向:总体协差阵的最大特征根所对应的正则特征向量。
- 方差:总体协差阵的最大特征根。
B.随机向量的离散程度
设p维随机向量X=(x1,⋯,xp)′,其离散程度的信息可用向量各分量方差的总和表示:
Var(x1)+⋯+Var(xp)
将X所含离散程度的信息最大化地用一个线性组合变量a′1X所含离散程度的信息来代替。
第一主成份离散程度信息的贡献率: contriution=Var(a′1X)∑pi=1Var(xi)×100%
Q:第一主成份代表性是否足够?或第一主成份贡献率是否足够?
A: 寻找第二主成份a′2X, 第二主成份应该与第一主成份正交,从而不含有第一主成份的信息。优化问题如下: supa′2a2=1, a′2a1=0Var(a′2X)=supa′2a2=1, a′2a1=0a′2Σa2s.t.{正则化约束:a′2a2=1正交化约束:a′2a1=0
不难知道,a2=α2=(a21,⋯,a2p)′,Var(a′2X)=a′2Σa2=λ2。即,第二主成份:
- 方向:总体协差阵的第二大特征根所对应的正则特征向量;
- 方差:总体协差阵的第二大特征根。
第一主成份与第二主成份的正交性: Cov(a′1X,a′2X)=a′1Σa2=λ2a′1a2=0
第二主成份离散程度信息的贡献率: contribution=Var(a′2X)∑pi=1Var(xi)×100%
6.0.3 回到例子
因为Σ是满秩的,那么Σ是一个RPN阵,这个时候对它进行SVD分解,得到的U=V都是R(Σ)值域空间的标准正交基。
![]()
那么写一个简单的python程序,对Σ进行SVD分解结果如下。
特征值&奇异值
序号 特征值λi 奇异值√λi 1 10115.7573 100.5771 2 809.2391 28.4471 3 33.0498 5.7489 4 19.8222 4.4522 5 10.2260 3.1978 6 6.6843 2.5854 7 1.9138 1.3834 8 0.8612 0.9280 左奇异向量 U
元素 U∗1 U∗2 U∗3 U∗4 U∗5 U∗6 U∗7 U∗8 U1∗ -0.5920 0.1849 -0.1308 0.1612 -0.0062 -0.0136 -0.5614 0.5067 U2∗ -0.5469 0.1362 -0.0860 0.0608 -0.0676 -0.0599 -0.0709 -0.8112 U3∗ -0.4052 0.2028 0.2958 0.0702 0.5535 0.1070 0.5948 0.1752 U4∗ -0.2062 -0.0083 -0.4074 0.2113 -0.6080 -0.1179 0.5662 0.2065 U5∗ -0.0638 -0.2320 -0.1151 0.1003 -0.0726 0.9549 -0.0116 -0.0397 U6∗ -0.2680 -0.9003 0.2347 0.1167 0.0327 -0.2170 -0.0055 0.0272 U7∗ -0.1416 -0.1867 -0.6008 -0.7004 0.2935 -0.0286 0.0667 0.0472 U8∗ -0.2183 0.0831 0.5411 -0.6376 -0.4763 0.1055 0.0282 0.0854 右奇异向量 VT(V=U)
元素 V∗1 V∗2 V∗3 V∗4 V∗5 V∗6 V∗7 V∗8 V1∗ -0.5920 -0.5469 -0.4052 -0.2062 -0.0638 -0.2680 -0.1416 -0.2183 V2∗ 0.1849 0.1362 0.2028 -0.0083 -0.2320 -0.9003 -0.1867 0.0831 V3∗ -0.1308 -0.0860 0.2958 -0.4074 -0.1151 0.2347 -0.6008 0.5411 V4∗ 0.1612 0.0608 0.0702 0.2113 0.1003 0.1167 -0.7004 -0.6376 V5∗ -0.0062 -0.0676 0.5535 -0.6080 -0.0726 0.0327 0.2935 -0.4763 V6∗ -0.0136 -0.0599 0.1070 -0.1179 0.9549 -0.2170 -0.0286 0.1055 V7∗ -0.5614 -0.0709 0.5948 0.5662 -0.0116 -0.0055 0.0667 0.0282 V8∗ 0.5067 -0.8112 0.1752 0.2065 -0.0397 0.0272 0.0472 0.0854
通过成人男子8个身体部位尺寸的协方差阵知: λ1=100.5771a1=(0.5920,0.5469,0.4052,0.2062,0.0638,0.2680,0.1416,0.2183)′

根据定理13.1.1 有: maxa,bρ(a′X,b′Y)=√λ1Var(a′X)=√λ1=100.57>Var(x1)=37.115
国外确定服装号型:第一主成份。
成年男子上衣第一主成份的贡献率=100.5771147.32=68.3%。
通过成人男子8个身体部位尺寸的协方差阵知: λ2=28.4471a2=(0.1849,0.1362,0.2028,−0.0083,−0.2320,−0.9003,−0.1867,0.0831)′

对于成年男子上衣,有: 累计贡献率=129.0242147.32×100%=87.6%
Q1:第一、第二主成份代表性是否足够?
Q2:停止?还是类似地继续寻找更多的主成份?
6.1 总体PCA
设X∼pNp(μ,Σ)。令Σ的特征根为λ1≥⋯≥λp≥0,特征根对应的正则正交特征向量为α1,…,αp。
令T=(α1,⋯,αp),则T是正交阵,且:
T′ΣT=Λ,Λ=diag(λ1,⋯,λp)
令Y=T′X,Y=(y1,⋯,yp)′,则称Y为X的主成份. 令αi=(α1i,⋯,αpi)′,则:
- X的第i主成份: yi=α′iX=∑pj=1αjixj
- X的第i主成份的方差:Var(α′iX)=α′iΣαi=λi,1≤i≤p。
Y的协方差阵为Cov(Y)=T′ΣT=Λ,因此有:
X的第i个主成份的方差为Var(yi)=λi,1≤i≤p。
记Σ=(σij)p×p,则Y与X具有相同的散布程度。 p∑i=1Var(yi)=p∑i=1λi=tr(Σ)=p∑i=1σii=p∑i=1Var(xi)
任意两个主成份都相互独立。
定义 | 公式 | 说明 |
---|---|---|
第k个主成份yk的贡献率 | λk/∑pi=1λi | 表示第k个主成份保留总体X散布程度信息的比例. |
前k个主成份(y1,⋯,yk)的累计贡献率 | ∑ki=1λi/∑pi=1λi | 表示前k个主成份保留总体散布程度信息的比例. |
第k个主成分yk中变量xj的因子负荷量 | ρyk,xj=αjk√λk/√σjj | ∑pk=1ρ2yk,xj=∑pk=1λkα2jk/σjj=1 |
第k个主成分yk的对于X的第j个分量xj的贡献率 | ρ2yk,xj=λkα2jk/σjj | 表示第k个主成分保留xj离散程度的信息的比例. |
前k个主成分(y1,⋯,yk)的对于X的第j个分量xj的累计贡献率 | ∑ki=1ρ2yi,xj=∑ki=1λiα2ij/σjj | 表示前k个主成分保留xj离散程度的信息的比例. |
6.1.1 主成分与总体的相关性
记Σ的第j个行向量为(σj1,⋯,σjp),1≤j≤p。
由于Σαk=λkαk(λk是Σ的特征值,αk是Σ的对应的特征向量,取列向量),因而有:
p∑i=1σjiαik=λkαjkp∑i=1σijαik=λkαjkCov(yk,xj)=Cov(p∑i=1αikxi,xj)=p∑i=1σijαik=λkαjk
6.1.2 主成分与X分量的复相关系数
令ρY,xj为Y与xj的复相关系数,1≤j≤p,则: ρ2Y,xj=p∑k=1ρ2yk,xj=1σjjp∑k=1λkα2jk, 1≤j≤p
则主成分Y与X的分量xj的复相关系数ρY,xj=1,1≤j≤p。
这说明主成分中含有分量xj的离散程度的全部信息。
事实上,有X=TY,即知 : $xj=p∑k=1αjkyk,1≤j≤p
6.1.3 回到例子
回答我们上述提到的问题:
Q1:第一、第二主成份代表性是否足够?
Q2:停止?还是类似地继续寻找更多的主成份?


第一、二主成分对身高:95.04%+2.62%=97.66%
第一、二主成分对胸围:23.45%+74.9%=98.35%
6.2 R主成分分析:处理量纲
主成分分析主要是对随机变量的协方差矩阵进行分析,将向量投影到方差大的方向以获得重要的主成份。
Q:变量的量纲影响变量的方差,有必要消除量纲对方差的影响。
A:对变量进行标准化处理,即令: X∗=diag(σ−1/211,⋯,σ−1/2pp)X=(σ−1/211x1,⋯,σ−1/2ppxp)′Cov(X∗)=diag(σ−1/211,⋯,σ−1/2pp)Σdiag(σ−1/211,⋯,σ−1/2pp)=R
其中R是X的相关阵,X∗的主成份与量纲无关。
6.2.1 R主成分分析的定义
设R的特征根为λ∗1≥⋯≥λ∗p≥0,与这些特征根对应的正则正交特征向量为α∗1,⋯,α∗p。令T∗=(α∗1,⋯,α∗p),
Y∗=(T∗)′X∗=(T∗)′(σ−1/211x1,⋯,σ−1/2ppxp)′
令Y∗=(y∗1,⋯,y∗p)′,α∗i=(α∗1i,⋯,α∗pi)′,则称:
y∗i=α∗iX∗=p∑j=1α∗jiσ−1/2jjxj
定义 | 公式 | 说明 |
---|---|---|
Y∗的协方差阵 | Cov(Y∗)=Λ∗=diag(λ∗1,⋯,λ∗p) | ∑pi=1λ∗i=p |
第k个R主成份y∗k的贡献率 | λ∗k/p | -- |
前k个R主成份(y∗1,⋯,y∗k)的累计贡献率 | ∑ki=1λ∗i/p | -- |
第k个R主成份y∗k中变量xj的因子负荷量 | α∗jk√λ∗k | ∑pk=1λ∗k(α∗jk)2=1, 1≤j≤p |
前k个R主成份(y∗1,⋯,y∗k)的对于X的第j个分量xj的累计贡献率 | ∑ki=1λ∗i(α∗ij)2 | -- |
6.3 样本主成分分析(基于观测数据)
假设总体X∼Np(μ,Σ),其观测样本为x1,⋯,xn,则(μ,Σ)的极大似然估计为: ˆμ=ˉx=n−1n∑i=1xiˆΣ=S=n−1n∑i=1(xi−ˉx)(xi−ˉx)′
样本主成份的定义 :(使用S代替Σ)
相关定义 | 说明 |
---|---|
S的特征根 | ˆλ1≥⋯≥ˆλp≥0 |
与特征根对应的正则正交特征向量 | ˆα1,⋯,ˆαp |
ˆY为X的样本主成份 | 令ˆY=ˆT′X,ˆY=(ˆy1,⋯,ˆyp)′,其中ˆT=(ˆα1,⋯,ˆαp). |
X的第k样本主成份(1≤k≤p) | 记ˆαk=(ˆα1k,⋯,ˆαpk)′,则称ˆyk=ˆα′kX=∑pj=1ˆαjkxj. |
ˆyk=ˆα′kX: ˆαk和ˆλk分别是X的第k主成份yk=αkX,第k主成分系数αk和第k主成份的方差λk的极大似然估计,1≤k≤p。
相应地,可以得到主成份对总体的贡献率、对总体分量的因子负荷量以及总体分量的贡献率的极大似然估计。
6.3.1 经验总体下的总体主成份分析
定义随机向量X∗,它服从离散分布,分布函数为: P(X∗=xi)=1n,1≤i≤n
则X∗的分布就是样本x1,⋯,xn的经验分布。
显然有: E(X∗)=n−1n∑i=1xi=ˉxCov(X∗)=E[(X∗−E(X∗))(X∗−E(X∗))′]=n−1n∑i=1(xi−ˉx)(xi−ˉx)′=S
求X∗的主成份 | 主成分 | 说明 |
---|---|---|
(1) 求第一主成份 | ˆα1X∗ | ˆα1=argmaxα′α=1Var(α′X∗)=argmaxα′α=1α′Sα |
(2) 求第二主成份 | ˆα2X∗ | ˆα2=argmaxα′α=1α′ˆα1=0Var(α′X∗)=argmaxα′α=1α′ˆα1=0α′Sα |
(3) 依次求第三到第p主成份 | ˆαpX∗ | --- |
因此,X∗的主成份系数与X的样本主成份系数是一致的,且: Var(ˆα′iX∗)=ˆλi, 1≤i≤p
6.4 样本R主成分分析
基于样本相关阵的主成分分析就是样本R主成分分析。
记: ˆR=diag(s−1/211,⋯,s−1/2pp)S diag(s−1/211,⋯,s−1/2pp)
此外,令: x∗i=diag(s−1/211,⋯,s−1/2pp)(xi−ˉx),1≤i≤n
则对x∗1,⋯,x∗n进行主成分分析即是样本R主成分分析。
PS:
- (总体)主成分分析与R主成分分析的结论可能不一致。
- 样本主成分分析与样本R主成分分析的结论可能不一致。
6.5 主成分的统计推断
对实际数据进行的主成份分析时,事先会设定一个主成份贡献率的阈值(1 - δ)。
得到样本的主成份后,可以计算前k个样本主成份的贡献率: ${i = 1}^{k} {i} / {i = 1}^{p} {i} $
如果: k∑i=1ˆλi/p∑i=1ˆλi>(1−δ)
首先假定$> 0 ,则参数(,) $的似然函数为: 1|Σ|n/2exp{−12tr[Σ−1(V+n(ˉx−μ)(ˉx−μ)′)]}
由于$= TT' ,即({1},,{p}) 和({1},,{p}) 仅与$有关,其似然函数为 : L(λ1,⋯,λp,α1,⋯,αp)=1|Σ|n/2exp{−12tr(Σ−1V)}=1|TΛT′|n/2exp{−12tr(TΛ−1T′V)}=(p∏i=1λi)−n/2exp{−12(p∑i=1α′iVαiλi)}为简单起见,再假定${1}>>{p}>0 $,即所有特征根都不等。此时${1},,{p} 与{1},,{p} $无关。
因为由$的任意性,在给定{1},,{p} 下,正交矩阵T = ({1},,{p}) $也是任意的。
事实上,考虑参数的自由度:在${1}>>{p}>0 $下 dim(Λ)=p,dim(T)=p2−p−p(p−1)2dim(Λ)+dim(T)=p(p+1)2=dim(Σ)
6.5.1 Fisher信息阵与极大似然估计的渐近正态性
假设$x_{1},,x_{n} 是服从密度函数为(x,) 的独立样本。记 为的极大似然估计,X^{(n)}=(x_{1},,x_{n})
$。对数似然函数为: l(θ|X(n))=n∑i=1logρ(xi,θ)
(ˆλ1,⋯,ˆλp)的渐近分布
有对数似然函数: l(λ1,⋯,λp,α1,⋯,αp)=p∑i=1(−n2logλi−12λiα′iVαi)≜p∑i=1l(λi,αi)
ˆλ1,⋯,ˆλp的渐近方差:
由于Vd=Wp(n−1,Σ),等价地有 : Vd=n−1∑k=1ZkZ′k
因此,对1≤i≤p,有 :
α′iVαid=n−1∑k=1(α′iZk)2
计算λi的Fisher信息 : −E(λi,αi)[∂2l(λi)∂λ2i]=−E(λi,αi)[n2λ2i−α′iVαiλ3i]=−n2λ2i+(n−1)λiλ3i=n−22λ2i
当Σ的特征根有重根时,情况比较复杂。
由极大似然估计的渐近正态性可以构造λi的渐近置信区间: ˆλi[1+√2/(n−2)Z1−β/2]−1≤λi≤ˆλi[1−√2/(n−2)Z1−β/2]−1
也可通过方差齐性变换,导出 : √n−2(ln(ˆλ√2/2i)−ln(λ√2/2i))d→N(0,1)可得λi的另一个置信水平为(1−β)的渐近置信区间: ˆλiexp{−2n−2Z1−β/2}≤λi≤ˆλiexp{2n−2Z1−β/2}
6.5.2 与主成分分析有关的检验问题
A.检验问题I
H0:λk+1+⋯+λp≤γ
检验统计量的构造 - 由(ˆλ1,⋯,ˆλp)的渐近正态性,有
: √n−2(p∑i=k+1ˆλi−p∑i=k+1λi)d→N(0,p∑i=k+12λ2i)
B.检验问题II
前k个主成分的累计贡献率是否大于给定的值δ? H0:∑ki=1λi∑pi=1λi≤δ
√n−2(∑ki=1ˆλi∑pi=1ˆλi−∑ki=1λi∑pi=1λi)
I(1≤i≤k)是指示函数:
- i≤k:I(1≤i≤k)=1
- i>k:I(1≤i≤k)=0
将极大似然估计ˆλ1,⋯,ˆλp代入ν2即得估计ˆν2,
ˆν2=2[(∑pi=k+1ˆλi)2(∑ki=1ˆλ2i)+(∑ki=1ˆλi)2(∑pi=k+1ˆλ2i)](∑pi=1ˆλi)4
∵√n−2ˆν(∑ki=1ˆλi∑pi=1ˆλi−δ)>Z1−α∴∑ki=1ˆλi∑pi=1ˆλi≥δ+ˆν√n−2Z1−α∴∑ki=1λi∑pi=1λi>δ
C.再次回到例子(统计检验)
样本协差阵的特征根从大到小依次为:
ˆλ1=100.5771 | ˆλ2=28.4471 | ˆλ3=5.7489 | ˆλ4=4.4522 |
---|---|---|---|
ˆλ5=3.1978 | ˆλ6=2.5854 | ˆλ7=1.3834 | ˆλ8=0.9280 |
设定累计贡献率的阈值δ=0.85、显著性水平设定为α=0.05
由于∑2i=1ˆλi∑8i=1ˆλi=87.6%,我们把零假设设定为: H0:∑2i=1λi∑8i=1λi≤δ=0.85
即检验问题Ⅱ:前2个主成分的累计贡献率是否大于给定的值δ?
计算ˆv2: ˆν2=2[(∑8i=3ˆλi)2(∑2i=1ˆλ2i)+(∑2i=1ˆλi)2(∑8i=3ˆλ2i)](∑8i=1ˆλi)4=0.0207
6.5.3 R主成分分析的检验
由于在R主成份分析中,样本相关阵的特征根ˆλ∗1,⋯,ˆλ∗p要满足约束条件∑pi=1ˆλ∗i=1。因此,ˆλ∗1,⋯,ˆλ∗p不再是渐近独立的。
此外,(λ∗1,⋯,λ∗p)与(α∗1,⋯,α∗p)不再是无关的,因此有关主成份分析的渐近理论对R主成份分析不再成立。