Schwertlilien
As a recoder: notes and ideas.

多元统计分析-Ch6-主成分分析

Ch6 主成分分析

[TOC]

目的:根据二八定律(雾),大量有效的信息都在很少的指标中。所以PCA在尽量减少损失信息的前提下,将多个指标降维,综合成几个综合指标

总的来说,PCA就是数据降维。但需要注意的是,得到的降维后的变量无实际意义(基本上就是原各个变量都混合一点的“大杂烩”)。

思路:选取变量的线性组合,使其(使得这个线性组合的方差尽可能的大,接近各个分类的方差之和,进而代表总体的散布程度)。

[TOC]

6.0 引入

6.0.1 例子

image-20241215114128375

image-20241215114228030

方差,选取的是对角线上值最大的前四个。

image-20241215114254872

计算相关系数:, 我们选择的方差最大的四个变量中,身高与颈椎点高、腰围高之间相关性交,所以只取身高即可。

最终选取的变量是:身高和胸围。

但仍存在问题:身高和胸围仍然具有相关性,应该对其进行进一步地压缩,以选出更具有代表性的指标。

Q:是否有更具代表性一个or少数指标

代表性标准:方差最大。

6.0.2 主成分分析

维随机向量(),我们想基于,找到变量(的线性组合),令的方差尽可能地大,足以代表的散布。

因为,这表明若不对施加约束,则的最大方差

所以对施加正则化约束:,使得优化问题为:

, 的第一主成分。

  • 是正则化系数下方差最大的的线性组合。
  • 的散布程度最接近, 是代表的首选。

A.总体协方差矩阵的特征根与特征向量

首先,我们先回顾一下URV分解、SVD分解、Moore-Penrose伪逆:

image-20241215150754017

image-20241215150953899

image-20241215151256715

image-20241215151352366

的特征根为,与这些特征根对应的正则正交特征向量为。 易知:

则第一主成份:

  • 方向:总体协差阵的最大特征根所对应的正则特征向量。
  • 方差:总体协差阵的最大特征根。

B.随机向量的离散程度

维随机向量,其离散程度的信息可用向量各分量方差的总和表示:

第一主成份的作用

所含离散程度的信息最大化地用一个线性组合变量所含离散程度的信息来代替。

第一主成份离散程度信息的贡献率:

Q:第一主成份代表性是否足够?或第一主成份贡献率是否足够?

A: 寻找第二主成份, 第二主成份应该与第一主成份正交,从而不含有第一主成份的信息。优化问题如下:

不难知道,

即,第二主成份:

  • 方向:总体协差阵的第二大特征根所对应的正则特征向量;
  • 方差:总体协差阵的第二大特征根。

第一主成份与第二主成份的正交性:

因此,正态总体下,第一主成份与第二主成份相互独立。

第二主成份离散程度信息的贡献率:

第一、第二主成份的累计贡献率:

6.0.3 回到例子

因为是满秩的,那么是一个RPN阵,这个时候对它进行SVD分解,得到的U=V都是值域空间的标准正交基。

image-20241215151614999

那么写一个简单的python程序,对进行SVD分解结果如下。

特征值&奇异值

序号 特征值 奇异值
1 10115.7573 100.5771
2 809.2391 28.4471
3 33.0498 5.7489
4 19.8222 4.4522
5 10.2260 3.1978
6 6.6843 2.5854
7 1.9138 1.3834
8 0.8612 0.9280

左奇异向量

元素
-0.5920 0.1849 -0.1308 0.1612 -0.0062 -0.0136 -0.5614 0.5067
-0.5469 0.1362 -0.0860 0.0608 -0.0676 -0.0599 -0.0709 -0.8112
-0.4052 0.2028 0.2958 0.0702 0.5535 0.1070 0.5948 0.1752
-0.2062 -0.0083 -0.4074 0.2113 -0.6080 -0.1179 0.5662 0.2065
-0.0638 -0.2320 -0.1151 0.1003 -0.0726 0.9549 -0.0116 -0.0397
-0.2680 -0.9003 0.2347 0.1167 0.0327 -0.2170 -0.0055 0.0272
-0.1416 -0.1867 -0.6008 -0.7004 0.2935 -0.0286 0.0667 0.0472
-0.2183 0.0831 0.5411 -0.6376 -0.4763 0.1055 0.0282 0.0854

右奇异向量 ()

元素
-0.5920 -0.5469 -0.4052 -0.2062 -0.0638 -0.2680 -0.1416 -0.2183
0.1849 0.1362 0.2028 -0.0083 -0.2320 -0.9003 -0.1867 0.0831
-0.1308 -0.0860 0.2958 -0.4074 -0.1151 0.2347 -0.6008 0.5411
0.1612 0.0608 0.0702 0.2113 0.1003 0.1167 -0.7004 -0.6376
-0.0062 -0.0676 0.5535 -0.6080 -0.0726 0.0327 0.2935 -0.4763
-0.0136 -0.0599 0.1070 -0.1179 0.9549 -0.2170 -0.0286 0.1055
-0.5614 -0.0709 0.5948 0.5662 -0.0116 -0.0055 0.0667 0.0282
0.5067 -0.8112 0.1752 0.2065 -0.0397 0.0272 0.0472 0.0854

通过成人男子8个身体部位尺寸的协方差阵知:

第一主成份

image-20241215115616003

根据定理13.1.1 有:

第一主成份的方差(散布程度)更大。 将其作为成年男子上衣的第一基本特征更具有代表性,以此对人群进行划分将更细致。

国外确定服装号型:第一主成份。

成年男子上衣第一主成份的贡献率

通过成人男子8个身体部位尺寸的协方差阵知:

第二主成份

image-20241215161959796

对于成年男子上衣,有:

Q1:第一、第二主成份代表性是否足够?

Q2:停止?还是类似地继续寻找更多的主成份?

6.1 总体PCA

。令的特征根为,特征根对应的正则正交特征向量

,则是正交阵,且:

  1. ,则称的主成份. 令,则:

    • 的第主成份:
    • 的第主成份的方差:
  2. 的协方差阵为,因此有:

    1. 的第个主成份的方差为

    2. ,则具有相同的散布程度。

    3. 任意两个主成份都相互独立。

定义 公式 说明
个主成份的贡献率 表示第个主成份保留总体散布程度信息的比例.
个主成份的累计贡献率 表示前个主成份保留总体散布程度信息的比例.
个主成分中变量的因子负荷量
个主成分的对于的第个分量的贡献率 表示第个主成分保留离散程度的信息的比例.
个主成分的对于的第个分量的累计贡献率 表示前个主成分保留离散程度的信息的比例.

6.1.1 主成分与总体的相关性

的第个行向量为

由于的特征值,的对应的特征向量,取列向量),因而有:

的第个主成分与的第个分量的相关系数为 :

为第个主成分中变量因子负荷量

6.1.2 主成分与X分量的复相关系数

的复相关系数,,则:

,知,即有

则主成分的分量的复相关系数

这说明主成分中含有分量的离散程度的全部信息。

事实上,有,即知 :

6.1.3 回到例子

回答我们上述提到的问题:

Q1:第一、第二主成份代表性是否足够?

Q2:停止?还是类似地继续寻找更多的主成份?

image-20241215162403948

image-20241215162416925

第一、二主成分对身高:

第一、二主成分对胸围:

6.2 R主成分分析:处理量纲

主成分分析主要是对随机变量的协方差矩阵进行分析,将向量投影到方差大的方向以获得重要的主成份。

Q:变量的量纲影响变量的方差,有必要消除量纲对方差的影响。

A:对变量进行标准化处理,即令:

其中的相关阵,的主成份与量纲无关。

6.2.1 R主成分分析的定义

的特征根为$\lambda_{1}^{}\geq\cdots\geq\lambda_{p}^{}\geq0\alpha_{1}^{},\cdots,\alpha_{p}^{}T^{}=(\alpha_{1}^{},\cdots,\alpha_{p}^{*})$,

则称主成份。

令$Y^{}=(y_{1}^{},\cdots,y_{p}^{})’\alpha_{i}^{}=(\alpha_{1i}^{},\cdots,\alpha_{pi}^{})’$,则称:

的第主成份,

定义 公式 说明
的协方差阵 $\begin{align}\text{Cov}(Y^{})&=\Lambda^{}\&=\text{diag}(\lambda_{1}^{},\cdots,\lambda_{p}^{})\end{align}$
主成份的贡献率
主成份$(y_{1}^{},\cdots,y_{k}^{})$的累计贡献率
主成份中变量的因子负荷量 $\alpha_{jk}^{}\sqrt{\lambda_{k}^{}}$ $\sum_{k = 1}^{p}\lambda_{k}^{}(\alpha_{jk}^{})^{2}=1,\ 1\leq j\leq p$
主成份$(y_{1}^{},\cdots,y_{k}^{})Xjx_{j}$的累计贡献率 $\sum_{i = 1}^{k}\lambda_{i}^{}(\alpha_{ij}^{})^{2}$

6.3 样本主成分分析(基于观测数据)

假设总体,其观测样本为,则的极大似然估计为:

样本主成份分析也就是基于样本协方差阵的主成份分析,它也等价于某个分布下的总体主成份分析。

样本主成份的定义 :(使用代替)

相关定义 说明
的特征根
与特征根对应的正则正交特征向量
的样本主成份 ,其中.
的第样本主成份() ,则称.

: 分别是的第主成份,第主成分系数和第主成份的方差的极大似然估计,

相应地,可以得到主成份对总体的贡献率、对总体分量的因子负荷量以及总体分量的贡献率的极大似然估计。

6.3.1 经验总体下的总体主成份分析

定义随机向量,它服从离散分布,分布函数为:

的分布就是样本的经验分布。

显然有:

经验总体下主成份的求解 :

的主成份 主成分 说明
(1) 求第一主成份
(2) 求第二主成份
(3) 依次求第三到第主成份 —-

因此,的主成份系数与的样本主成份系数是一致的,且:

6.4 样本R主成分分析

基于样本相关阵的主成分分析就是样本R主成分分析。

记:

是样本相关阵。基于进行主成分分析即可。

此外,令:

那么$x_{1}^{},\cdots,x_{n}^{}x_{1},\cdots,x_{n}\hat{R}$。

则对$x_{1}^{},\cdots,x_{n}^{}$进行主成分分析即是样本R主成分分析。

PS:

  • (总体)主成分分析与R主成分分析的结论可能不一致
  • 样本主成分分析与样本R主成分分析的结论可能不一致

6.5 主成分的统计推断

对实际数据进行的主成份分析时,事先会设定一个主成份贡献率的阈值(1 - δ)。

得到样本的主成份后,可以计算前k个样本主成份的贡献率:

如果:

是否就可以认为:

A: 需要对协差阵的特征根进行统计推断。

首先假定,则参数的似然函数为:

由于,即仅与有关,其似然函数为 :

为简单起见,再假定,即所有特征根都不等

此时无关。

因为由的任意性,在给定下,正交矩阵也是任意的。

事实上,考虑参数的自由度:在

6.5.1 Fisher信息阵与极大似然估计的渐近正态性

假设是服从密度函数为的独立样本。 记的极大似然估计,。对数似然函数为:

则Fisher信息阵为:

的渐近正态性(一般情形):

在独立同分布情形下,有 :

的渐近分布

有对数似然函数:

因此对任意的,有:

那么由Fisher信息阵的结构,知的极限分布是相互独立的正态分布。

的渐近方差:

由于,等价地有 :

其中,是i.i.d.的正态随机向量。

因此,对,有 :

由于,知是独立同分布的随机变量。因此

计算的Fisher信息 :

的Fisher信息阵为:

由极大似然估计的渐近正态性知:

的特征根有重根时,情况比较复杂。

由极大似然估计的渐近正态性可以构造的渐近置信区间:

也可通过方差齐性变换,导出 :

可得的另一个置信水平为的渐近置信区间:

6.5.2 与主成分分析有关的检验问题

A.检验问题I

检验统计量的构造 - 由的渐近正态性,有 :

进而可得 :

当:

时,拒绝零假设,它犯第一类错误的概率渐近不超过

B.检验问题II

前k个主成分的累计贡献率是否大于给定的值?

考虑如下的累计贡献率统计量的渐近分布 :

定义如下的累计贡献率函数:

由Cramér定理有:

其中 :

事实上,若记,则有:

因此:

是指示函数:

将极大似然估计代入即得估计

因此有:

结论:当:

当标准化的统计量大于时拒绝零假设,它犯第一类错误的概率渐近不超过

C.再次回到例子(统计检验)

样本协差阵的特征根从大到小依次为:

设定累计贡献率的阈值、显著性水平设定为

由于,我们把零假设设定为:

即检验问题Ⅱ:前2个主成分的累计贡献率是否大于给定的值

计算:

计算检验临界值 : 其中

结论:拒绝零假设,即认为,两个主成分已满足代表原总体散度的要求。

6.5.3 R主成分分析的检验

由于在R主成份分析中,样本相关阵的特征根$\hat{\lambda}_{1}^{},\cdots,\hat{\lambda}_{p}^{}\sum_{i = 1}^{p}\hat{\lambda}_{i}^{}=1\hat{\lambda}_{1}^{},\cdots,\hat{\lambda}_{p}^{*}$不再是渐近独立的。

此外,$(\lambda_{1}^{},\cdots,\lambda_{p}^{})(\alpha_{1}^{},\cdots,\alpha_{p}^{})$不再是无关的,因此有关主成份分析的渐近理论对R主成份分析不再成立。

搜索
匹配结果数:
未搜索到匹配的文章。