Processing math: 100%
Schwertlilien
As a recoder: notes and ideas.

多元统计分析-Ch6-主成分分析

Ch6 主成分分析

[TOC]

目的:根据二八定律(雾),大量有效的信息都在很少的指标中。所以PCA在尽量减少损失信息的前提下,将多个指标降维,综合成几个综合指标

总的来说,PCA就是数据降维。但需要注意的是,得到的降维后的变量无实际意义(基本上就是原各个变量都混合一点的“大杂烩”)。

思路:选取变量的线性组合,使其maxΣiΣi(使得这个线性组合的方差尽可能的大,接近各个分类的方差之和,进而代表总体的散布程度)。

[TOC]

6.0 引入

6.0.1 例子

image-20241215114128375
image-20241215114228030

方差Var(X),选取的是对角线上值最大的前四个。

image-20241215114254872

计算相关系数:ρxy=Cov(X,Y)Var(X)Var(Y), 我们选择的方差最大的四个变量中,身高与颈椎点高、腰围高之间相关性交,所以只取身高即可。

最终选取的变量是:身高和胸围。

但仍存在问题:身高和胸围仍然具有相关性,应该对其进行进一步地压缩,以选出更具有代表性的指标。

Q:是否有更具代表性一个or少数指标

代表性标准:方差最大。

6.0.2 主成分分析

Xp维随机向量(p>1,Cov(X)=Σ),我们想基于X,找到变量Y=aX(aRp,X的线性组合),令Y的方差尽可能地大,足以代表X的散布。

aRm×p,XRp×1,YRm×1

因为Cov(X)=Σ,Var(aX)=aCov(X)a=aΣa,这表明若不对a施加约束,则aX的最大方差

所以对a施加正则化约束:aa=1,使得优化问题为: supaa=1Var(aX)=supaa=1aΣa

a1=argmaxaa=1aΣa, a1XX的第一主成分。

  • a1X是正则化系数下方差最大的X的线性组合。
  • a1X的散布程度最接近X, 是代表X的首选。

A.总体协方差矩阵的特征根与特征向量

首先,我们先回顾一下URV分解、SVD分解、Moore-Penrose伪逆:

image-20241215150754017
image-20241215150953899
image-20241215151256715
image-20241215151352366

Σ的特征根为λ1λp0,与这些特征根对应的正则正交特征向量为α1,,αp。 易知: α1=α1=(a11,,a1p)Var(a1X)=a1Σa1=λ1

则第一主成份:

  • 方向:总体协差阵的最大特征根所对应的正则特征向量。
  • 方差:总体协差阵的最大特征根。

B.随机向量的离散程度

p维随机向量X=(x1,,xp),其离散程度的信息可用向量各分量方差的总和表示: Var(x1)++Var(xp)

第一主成份的作用

X所含离散程度的信息最大化地用一个线性组合变量a1X所含离散程度的信息来代替。

第一主成份离散程度信息的贡献率: contriution=Var(a1X)pi=1Var(xi)×100%

Q:第一主成份代表性是否足够?或第一主成份贡献率是否足够?

A: 寻找第二主成份a2X, 第二主成份应该与第一主成份正交,从而不含有第一主成份的信息。优化问题如下: supa2a2=1, a2a1=0Var(a2X)=supa2a2=1, a2a1=0a2Σa2s.t.{正则化约束:a2a2=1正交化约束:a2a1=0

不难知道,a2=α2=(a21,,a2p)Var(a2X)=a2Σa2=λ2

即,第二主成份:

  • 方向:总体协差阵的第二大特征根所对应的正则特征向量;
  • 方差:总体协差阵的第二大特征根。

第一主成份与第二主成份的正交性: Cov(a1X,a2X)=a1Σa2=λ2a1a2=0

因此,正态总体下,第一主成份与第二主成份相互独立。

第二主成份离散程度信息的贡献率: contribution=Var(a2X)pi=1Var(xi)×100%

第一、第二主成份的累计贡献率: 累计贡献率=Var(a1X)+Var(a2X)pi=1Var(xi)×100%

6.0.3 回到例子

因为Σ是满秩的,那么Σ是一个RPN阵,这个时候对它进行SVD分解,得到的U=V都是R(Σ)值域空间的标准正交基。

image-20241215151614999

那么写一个简单的python程序,对Σ进行SVD分解结果如下。

特征值&奇异值

序号 特征值λi 奇异值λi
1 10115.7573 100.5771
2 809.2391 28.4471
3 33.0498 5.7489
4 19.8222 4.4522
5 10.2260 3.1978
6 6.6843 2.5854
7 1.9138 1.3834
8 0.8612 0.9280

左奇异向量 U

元素 U1 U2 U3 U4 U5 U6 U7 U8
U1 -0.5920 0.1849 -0.1308 0.1612 -0.0062 -0.0136 -0.5614 0.5067
U2 -0.5469 0.1362 -0.0860 0.0608 -0.0676 -0.0599 -0.0709 -0.8112
U3 -0.4052 0.2028 0.2958 0.0702 0.5535 0.1070 0.5948 0.1752
U4 -0.2062 -0.0083 -0.4074 0.2113 -0.6080 -0.1179 0.5662 0.2065
U5 -0.0638 -0.2320 -0.1151 0.1003 -0.0726 0.9549 -0.0116 -0.0397
U6 -0.2680 -0.9003 0.2347 0.1167 0.0327 -0.2170 -0.0055 0.0272
U7 -0.1416 -0.1867 -0.6008 -0.7004 0.2935 -0.0286 0.0667 0.0472
U8 -0.2183 0.0831 0.5411 -0.6376 -0.4763 0.1055 0.0282 0.0854

右奇异向量 VT(V=U)

元素 V1 V2 V3 V4 V5 V6 V7 V8
V1 -0.5920 -0.5469 -0.4052 -0.2062 -0.0638 -0.2680 -0.1416 -0.2183
V2 0.1849 0.1362 0.2028 -0.0083 -0.2320 -0.9003 -0.1867 0.0831
V3 -0.1308 -0.0860 0.2958 -0.4074 -0.1151 0.2347 -0.6008 0.5411
V4 0.1612 0.0608 0.0702 0.2113 0.1003 0.1167 -0.7004 -0.6376
V5 -0.0062 -0.0676 0.5535 -0.6080 -0.0726 0.0327 0.2935 -0.4763
V6 -0.0136 -0.0599 0.1070 -0.1179 0.9549 -0.2170 -0.0286 0.1055
V7 -0.5614 -0.0709 0.5948 0.5662 -0.0116 -0.0055 0.0667 0.0282
V8 0.5067 -0.8112 0.1752 0.2065 -0.0397 0.0272 0.0472 0.0854

通过成人男子8个身体部位尺寸的协方差阵知: λ1=100.5771a1=(0.5920,0.5469,0.4052,0.2062,0.0638,0.2680,0.1416,0.2183)

第一主成份0.5×(身高+颈椎点高+腰围高)

image-20241215115616003

根据定理13.1.1 有: maxa,bρ(aX,bY)=λ1Var(aX)=λ1=100.57>Var(x1)=37.115

第一主成份a1X的方差(散布程度)更大。 将其作为成年男子上衣的第一基本特征更具有代表性,以此对人群进行划分将更细致。

国外确定服装号型:第一主成份。

成年男子上衣第一主成份的贡献率=100.5771147.32=68.3%

通过成人男子8个身体部位尺寸的协方差阵知: λ2=28.4471a2=(0.1849,0.1362,0.2028,0.0083,0.2320,0.9003,0.1867,0.0831)

第二主成份胸围

image-20241215161959796

对于成年男子上衣,有: 累计贡献率=129.0242147.32×100%=87.6%

Q1:第一、第二主成份代表性是否足够?

Q2:停止?还是类似地继续寻找更多的主成份?

6.1 总体PCA

XpNp(μ,Σ)。令Σ的特征根为λ1λp0,特征根对应的正则正交特征向量α1,,αp

T=(α1,,αp),则T是正交阵,且:
TΣT=Λ,Λ=diag(λ1,,λp)

  1. Y=TXY=(y1,,yp),则称YX的主成份. 令αi=(α1i,,αpi),则:

    • X的第i主成份: yi=αiX=pj=1αjixj
    • X的第i主成份的方差:Var(αiX)=αiΣαi=λi1ip
  2. Y的协方差阵为Cov(Y)=TΣT=Λ,因此有:

    1. X的第i个主成份的方差为Var(yi)=λi1ip

    2. Σ=(σij)p×p,则YX具有相同的散布程度。 pi=1Var(yi)=pi=1λi=tr(Σ)=pi=1σii=pi=1Var(xi)

    3. 任意两个主成份都相互独立。

定义 公式 说明
k个主成份yk的贡献率 λk/pi=1λi 表示第k个主成份保留总体X散布程度信息的比例.
k个主成份(y1,,yk)的累计贡献率 ki=1λi/pi=1λi 表示前k个主成份保留总体散布程度信息的比例.
k个主成分yk中变量xj的因子负荷量 ρyk,xj=αjkλk/σjj pk=1ρ2yk,xj=pk=1λkα2jk/σjj=1
k个主成分yk的对于X的第j个分量xj的贡献率 ρ2yk,xj=λkα2jk/σjj 表示第k个主成分保留xj离散程度的信息的比例.
k个主成分(y1,,yk)的对于X的第j个分量xj的累计贡献率 ki=1ρ2yi,xj=ki=1λiα2ij/σjj 表示前k个主成分保留xj离散程度的信息的比例.

6.1.1 主成分与总体的相关性

Σ的第j个行向量为(σj1,,σjp)1jp

由于Σαk=λkαkλkΣ的特征值,αkΣ的对应的特征向量,取列向量),因而有: pi=1σjiαik=λkαjkpi=1σijαik=λkαjkCov(yk,xj)=Cov(pi=1αikxi,xj)=pi=1σijαik=λkαjk

X的第k个主成分与X的第j个分量xj的相关系数为 : ρyk,xj=Cov(yk,xj)Var(yk)Var(xj)=λkαjkλkσjj=αjkλkσjj
ρyk,xj为第k个主成分yk中变量xj因子负荷量

6.1.2 主成分与X分量的复相关系数

ρY,xjYxj的复相关系数,1jp,则: ρ2Y,xj=pk=1ρ2yk,xj=1σjjpk=1λkα2jk, 1jp

TΣT=Λ,知Σ=TΛT,即有σjj=pk=1λkα2jk1jp

则主成分YX的分量xj的复相关系数ρY,xj=11jp

这说明主成分中含有分量xj的离散程度的全部信息。

事实上,有X=TY,即知 : $xj=pk=1αjkyk,1jp

6.1.3 回到例子

回答我们上述提到的问题:

Q1:第一、第二主成份代表性是否足够?

Q2:停止?还是类似地继续寻找更多的主成份?

image-20241215162403948
image-20241215162416925

第一、二主成分对身高:95.04%+2.62%=97.66%

第一、二主成分对胸围:23.45%+74.9%=98.35%

6.2 R主成分分析:处理量纲

主成分分析主要是对随机变量的协方差矩阵进行分析,将向量投影到方差大的方向以获得重要的主成份。

Q:变量的量纲影响变量的方差,有必要消除量纲对方差的影响。

A:对变量进行标准化处理,即令: X=diag(σ1/211,,σ1/2pp)X=(σ1/211x1,,σ1/2ppxp)Cov(X)=diag(σ1/211,,σ1/2pp)Σdiag(σ1/211,,σ1/2pp)=R

其中RX的相关阵,X的主成份与量纲无关。

6.2.1 R主成分分析的定义

R的特征根为λ1λp0,与这些特征根对应的正则正交特征向量为α1,,αp。令T=(α1,,αp)Y=(T)X=(T)(σ1/211x1,,σ1/2ppxp)

则称YXR主成份。

Y=(y1,,yp)αi=(α1i,,αpi),则称: yi=αiX=pj=1αjiσ1/2jjxj

yiX的第iR主成份,1ip

定义 公式 说明
Y的协方差阵 Cov(Y)=Λ=diag(λ1,,λp) pi=1λi=p
kR主成份yk的贡献率 λk/p --
kR主成份(y1,,yk)的累计贡献率 ki=1λi/p --
kR主成份yk中变量xj的因子负荷量 αjkλk pk=1λk(αjk)2=1, 1jp
kR主成份(y1,,yk)的对于X的第j个分量xj的累计贡献率 ki=1λi(αij)2 --

6.3 样本主成分分析(基于观测数据)

假设总体XNp(μ,Σ),其观测样本为x1,,xn,则(μ,Σ)的极大似然估计为: ˆμ=ˉx=n1ni=1xiˆΣ=S=n1ni=1(xiˉx)(xiˉx)

样本主成份分析也就是基于样本协方差阵S的主成份分析,它也等价于某个分布下的总体主成份分析。

样本主成份的定义 :(使用S代替Σ)

相关定义 说明
S的特征根 ˆλ1ˆλp0
与特征根对应的正则正交特征向量 ˆα1,,ˆαp
ˆYX的样本主成份 ˆY=ˆTXˆY=(ˆy1,,ˆyp),其中ˆT=(ˆα1,,ˆαp).
X的第k样本主成份(1kp) ˆαk=(ˆα1k,,ˆαpk),则称ˆyk=ˆαkX=pj=1ˆαjkxj.

ˆyk=ˆαkX: ˆαkˆλk分别是X的第k主成份yk=αkX,第k主成分系数αk和第k主成份的方差λk的极大似然估计,1kp

相应地,可以得到主成份对总体的贡献率、对总体分量的因子负荷量以及总体分量的贡献率的极大似然估计。

6.3.1 经验总体下的总体主成份分析

定义随机向量X,它服从离散分布,分布函数为: P(X=xi)=1n,1in

X的分布就是样本x1,,xn的经验分布。

显然有: E(X)=n1ni=1xi=ˉxCov(X)=E[(XE(X))(XE(X))]=n1ni=1(xiˉx)(xiˉx)=S

经验总体下主成份的求解 :

X的主成份 主成分 说明
(1) 求第一主成份 ˆα1X ˆα1=argmaxαα=1Var(αX)=argmaxαα=1αSα
(2) 求第二主成份 ˆα2X ˆα2=argmaxαα=1αˆα1=0Var(αX)=argmaxαα=1αˆα1=0αSα
(3) 依次求第三到第p主成份 ˆαpX ---

因此,X的主成份系数与X的样本主成份系数是一致的,且: Var(ˆαiX)=ˆλi, 1ip

6.4 样本R主成分分析

基于样本相关阵的主成分分析就是样本R主成分分析。

记: ˆR=diag(s1/211,,s1/2pp)S diag(s1/211,,s1/2pp)

ˆR是样本相关阵。基于ˆR进行主成分分析即可。

此外,令: xi=diag(s1/211,,s1/2pp)(xiˉx),1in

那么x1,,xn的样本协差阵也是x1,,xn的样本相关阵ˆR

则对x1,,xn进行主成分分析即是样本R主成分分析。

PS:

  • (总体)主成分分析与R主成分分析的结论可能不一致
  • 样本主成分分析与样本R主成分分析的结论可能不一致

6.5 主成分的统计推断

对实际数据进行的主成份分析时,事先会设定一个主成份贡献率的阈值(1 - δ)。

得到样本的主成份后,可以计算前k个样本主成份的贡献率: ${i = 1}^{k} {i} / {i = 1}^{p} {i} $

如果: ki=1ˆλi/pi=1ˆλi>(1δ)

是否就可以认为: ki=1λi/pi=1λi>(1δ)?
A: 需要对协差阵的特征根${1} {p} $进行统计推断。

首先假定$> 0 (,) $的似然函数为: 1|Σ|n/2exp{12tr[Σ1(V+n(ˉxμ)(ˉxμ))]}

由于$= TT' ({1},,{p}) ({1},,{p}) $有关,其似然函数为 : L(λ1,,λp,α1,,αp)=1|Σ|n/2exp{12tr(Σ1V)}=1|TΛT|n/2exp{12tr(TΛ1TV)}=(pi=1λi)n/2exp{12(pi=1αiVαiλi)}
为简单起见,再假定${1}>>{p}>0 $,即所有特征根都不等

此时${1},,{p} {1},,{p} $无关。

因为由${1},,{p} T = ({1},,{p}) $也是任意的。

事实上,考虑参数的自由度:在${1}>>{p}>0 $下 dim(Λ)=p,dim(T)=p2pp(p1)2dim(Λ)+dim(T)=p(p+1)2=dim(Σ)

6.5.1 Fisher信息阵与极大似然估计的渐近正态性

假设$x_{1},,x_{n} (x,) X^{(n)}=(x_{1},,x_{n}) $。对数似然函数为: l(θ|X(n))=ni=1logρ(xi,θ)

则Fisher信息阵为: In(θ)=Varθ[l(θ|X(n))θ](一般性的定义)=Eθ[2l(θ|X(n))θ2]=nEθ[2θ2logρ(x1,θ)](独立同分布下)nI(θ)
的渐近正态性(一般情形): (In(θ))1/2(ˆθθ)dN(0,Ip)(n)
在独立同分布情形下,有 : n(ˆθθ)dN(0,I1(θ))(n)

(ˆλ1,,ˆλp)的渐近分布

有对数似然函数: l(λ1,,λp,α1,,αp)=pi=1(n2logλi12λiαiVαi)pi=1l(λi,αi)

因此对任意的ij,有: 2l(θ|X(n))λiλj=2l(λ1,,λp,α1,,αp)λiλj=0
那么由Fisher信息阵的结构,知ˆλ1,,ˆλp的极限分布是相互独立的正态分布。

ˆλ1,,ˆλp的渐近方差:

由于Vd=Wp(n1,Σ),等价地有 : Vd=n1k=1ZkZk

其中,Z1,,Zn1是i.i.d.的正态Np(0,Σ)随机向量。

因此,对1ip,有 : αiVαid=n1k=1(αiZk)2

由于αiΣαi=λi,知αiZ1,,αiZn1是独立同分布的N1(0,λi)随机变量。因此 αiVαid=λiχ2(n1)

计算λi的Fisher信息 : E(λi,αi)[2l(λi)λ2i]=E(λi,αi)[n2λ2iαiVαiλ3i]=n2λ2i+(n1)λiλ3i=n22λ2i

(ˆλ1,,ˆλp)的Fisher信息阵为: In=diag(n22λ21,,n22λ2p)
由极大似然估计的渐近正态性知: I1/2n(ˆλ1λ1ˆλnλn)dN(0,Ip)(n)n,n2(ˆλ1λ1ˆλnλn)dN(0,diag(2λ21,,2λ2p))

Σ的特征根有重根时,情况比较复杂。

由极大似然估计的渐近正态性可以构造λi的渐近置信区间: ˆλi[1+2/(n2)Z1β/2]1λiˆλi[12/(n2)Z1β/2]1

也可通过方差齐性变换,导出 : n2(ln(ˆλ2/2i)ln(λ2/2i))dN(0,1)
可得λi的另一个置信水平为(1β)的渐近置信区间: ˆλiexp{2n2Z1β/2}λiˆλiexp{2n2Z1β/2}

6.5.2 与主成分分析有关的检验问题

A.检验问题I

H0:λk+1++λpγ

检验统计量的构造 - 由(ˆλ1,,ˆλp)的渐近正态性,有 : n2(pi=k+1ˆλipi=k+1λi)dN(0,pi=k+12λ2i)

进而可得 : n2(pi=k+1ˆλipi=k+1λi)pi=k+12ˆλ2idN(0,1)
当: pi=k+1ˆλi>γ+pi=k+12ˆλ2in2Z1α
时,拒绝零假设,它犯第一类错误的概率渐近不超过α

B.检验问题II

前k个主成分的累计贡献率是否大于给定的值δ? H0:ki=1λipi=1λiδ

考虑如下的累计贡献率统计量的渐近分布 :
n2(ki=1ˆλipi=1ˆλiki=1λipi=1λi)
定义如下的累计贡献率函数: f(λ1,,λp)=ki=1λipi=1λi
由Cramér定理有: n2(f(ˆλ1,,ˆλp)f(λ1,,λp))dN(0,ν2)
其中 : ν2=2[(pi=k+1λi)2(ki=1λ2i)+(ki=1λi)2(pi=k+1λ2i)](pi=1λi)4
事实上,若记λ=(λ1,,λp),则有: f(λ)λi=I(1ik)pj=1λjkj=1λj(pj=1λj)2, 1ip
因此: v2=(f(λ)λ)diag(2λ21,,2λ2p)f(λ)λ=2pi=1λ2i(I(1ik)pj=1λjkj=1λj(pj=1λj)2)2

I(1ik)是指示函数:

  • ik:I(1ik)=1
  • i>k:I(1ik)=0

将极大似然估计ˆλ1,,ˆλp代入ν2即得估计ˆν2
ˆν2=2[(pi=k+1ˆλi)2(ki=1ˆλ2i)+(ki=1ˆλi)2(pi=k+1ˆλ2i)](pi=1ˆλi)4

因此有: n2ˆv(ki=1ˆλipi=1ˆλiki=1λipi=1λi)dN(0,1)
结论:当:
n2ˆν(ki=1ˆλipi=1ˆλiδ)>Z1αki=1ˆλipi=1ˆλiδ+ˆνn2Z1αki=1λipi=1λi>δ
当标准化的统计量大于Z1α时拒绝零假设,它犯第一类错误的概率渐近不超过α

C.再次回到例子(统计检验)

样本协差阵的特征根从大到小依次为:

ˆλ1=100.5771 ˆλ2=28.4471 ˆλ3=5.7489 ˆλ4=4.4522
ˆλ5=3.1978 ˆλ6=2.5854 ˆλ7=1.3834 ˆλ8=0.9280

设定累计贡献率的阈值δ=0.85、显著性水平设定为α=0.05

由于2i=1ˆλi8i=1ˆλi=87.6%,我们把零假设设定为: H0:2i=1λi8i=1λiδ=0.85

即检验问题Ⅱ:前2个主成分的累计贡献率是否大于给定的值δ

计算ˆv2: ˆν2=2[(8i=3ˆλi)2(2i=1ˆλ2i)+(2i=1ˆλi)2(8i=3ˆλ2i)](8i=1ˆλi)4=0.0207

计算检验临界值 : 其中n=5115Z1α=Z0.95=1.6449Cr=δ+ˆνn2Z1α=0.85332i=1ˆλi8i=1ˆλi=0.876>Cr=0.8533
结论:拒绝零假设,即认为2i=1λi8i=1λi>0.85,两个主成分已满足代表原总体散度的要求。

6.5.3 R主成分分析的检验

由于在R主成份分析中,样本相关阵的特征根ˆλ1,,ˆλp要满足约束条件pi=1ˆλi=1。因此,ˆλ1,,ˆλp不再是渐近独立的。

此外,(λ1,,λp)(α1,,αp)不再是无关的,因此有关主成份分析的渐近理论对R主成份分析不再成立。

搜索
匹配结果数:
未搜索到匹配的文章。