Schwertlilien
As a recoder: notes and ideas.

多元统计分析-Ch5-相关分析

Ch5 相关分析

[TOC]

どうぞよろしくお願い~OvO

5.0 例:家庭特征与家庭消费之间的关系

image-20241213235458701

统计分析方法:典型相关分析

典型相关分析:研究两组变量之间相关性的一种统计分析方法,也是一种降维技术。

5.1 复相关系数

之前我们评估两个随机变量之间的相关程度,使用的是Pearson相关系数:. 但当X 和 Y 其中之一换成随机向量时,Pearson相关系数就不再适用。

为衡量随机变量和随机向量、随机向量和随机向量之间的相关程度,一个常用的方法就是采用线性投影,讲随机向量通过某个线性变化投影成一元随机变量,然后就可以采用两变量的相关系数来定义随机变量和随机向量、随机向量和随机向量之间的相关程度。

相关关系:

两个单变量之间 一个单变量与一个向量之间 两个向量之间
“一对一” “一对多” “多对多”
(简单)相关系数、偏相关系数 复相关系数 典型相关系数

5.1.1 总体复相关系数

设随机向量,其中

分别剖分为:

其中,阶正定阵。

考虑之间的简单相关系数,其中

则定义的复相关系数为:

的非负性、Cauchy - Schwarz不等式知 :

上式在达最大, c是任一非零常数。对应线性模型中的回归系数:, 是随机误差。这就是复相关系数的平方常被用于刻画线性模型拟合程度的一个原因。

定理 1: 当时,的方差取得最小值:最接近,

的相关系数最大,为复相关系数,本质上刻画了的线性相关程度。

证明: 对任意,有 :

由于,则有:

方差关系有:

由定理1知:达最小意味着最接近,即最接近。

因此可以用个预报因子的线性组合来预测单个因变量,其最优斜率为,最优截距为

注意到:

条件期望是最优(方差最小)的线性预测。

复相关系数定义(变量-向量之间)

变量与向量之间的复相关系数为 其中,

复相关系数的性质

  1. 越大则的相关性越强;
  2. ,即独立。

5.1.2 样本复相关系数

在实际应用中,我们通常没有总体的参数,而是通过样本来估计这些参数。

样本复相关系数 r 是总体复相关系数 的一个估计。样本复相关系数 r 的形式类似于总体复相关系数,但由于样本的有限性,样本复相关系数会受到抽样误差的影响。为了提高估计的准确性,样本的数量越多,估计的准确性也越高。

设总体,其样本为。考虑的剖分

分别为样本均值、样本离差阵和样本协差阵,并对它们作相应剖分。

则由的复相关系数:

定义的样本复相关系数为:

以及的估计为。不难知道,它们分别是复相关系数和方向的极大似然估计。

修正的样本复相关系数

用途:

  • 时,修正的样本复相关系数=样本复相关系数;
  • 时,修正的样本复相关系数<样本复相关系数。

在对线性回归模型做模型选择时,常用修正的样本相关系数来判断是否再选入一个预报因子。

样本复相关系数的分布

的情形:独立

由Wishart分布的独立分解性质知,

:衡量残差方差的量,在 独立的情形下, 会服从自由度为 的卡方分布 ,因为它的形式类似于在进行回归分析时残差平方和的分布。

:是标准化后的 之间的协方差向量)。我们通过乘以 来标准化它。

独立。因此,

则由可以检验是否相互独立。

注:该检验与3.3.6中独立性检验在的情形一致。

一般情形

考虑变换,并对作相同剖分:

因此,不失一般性,可以假设的协差阵为 ,

此时有。简记

对上述结果的解释说明

Y的均值、方差按照计算。

,

所以.

对协方差矩阵进行标准化后,每个部分的方差(如 的方差)变为 1。所以内部向量都是独立同分布的,二者的相关性就体现在上。

Q: 为什么可以假设的协差阵为 ?

A: 因为我们通过线性变换已经证明这两个分量,本身内部都是独立同分布的。

通过标准化的方差结构,使得我们可以更加集中于研究之间的相关性,而不需要处理不同变量之间的不同单位和规模。

由Wishart分布的性质知:

  1. 给定的条件下,
  2. 相互独立。

则在给定的条件下,根据条件独立性,u 服从一个加权的非中心卡方分布;而u的非中心参数又服从另外一个加权的卡方分布:

由此可以导出的密度函数。 又由于:

可以导出的分布,进而推出的密度函数:

密度函数揭示了 相关性强弱 对结果的影响,进而使得假设检验更加精确和可靠。例如,如果计算出 很小,可以认为之间几乎没有线性相关性,从而支持它们独立的假设;而如果 较大,则可能需要进一步检查相关性的显著性。

5.2 典型相关分析

典型相关系数定义(向量-向量之间)

分别为p维和q维随机向量:,其协方差矩阵为:

其中:正定。

设a和b分别为p维和q维任意非零的常数向量:

由于相关系数不受a和b常数倍的影响,为简单起见,对进行标准化,令:

(书p485)定理13.1.1的最大相关系数为:

在标准化的方差约束条件下,最大值在时达到,其中分别为矩阵的最大特征值和最大特征值对应的特征向量。

定理13.1.1表明,要求a和b,可以先求a再求b,也可以先求b再求a。

因此把称为 第一典型相关系数

  • 越接近0,说明 的相关程度越弱;
  • 越接近1,说明 的相关程度越强。

但上面的得到的的相关系数往往并不能完全反映 的相关程度,需要考虑 的更多组线性组合的相关系数。

5.2.1 总体典型相关分析

分别为p维和q维随机向量:,其协方差矩阵为:

其中 : .

类似随机变量间相关系数,定义:

根据定理13.1.1,的最大相关关系就是R的最大奇异值。分别为最大特征值对应的标准化后的特征向量。当R存在多个非零奇异值时,X 和 Y 存在多组典型相关变量。 具体定义如下:

(书p486)定义13.2(总体的典型相关):记R的奇异值分解为:

此处, 分别为列正交矩阵为R的非奇异值。 分别为对应于共同特征值的标准化的特征向量。

X 和 Y的典型相关向量:

X 和 Y的第i对典型相关向量

X 和 Y的第i个典型相关系数

A.典型相关系数的性质

性质 説明
性质13.2.1 典型相关变量的方差都被标准化为1,且不同组的典型相关变量是不相关的。
性质13.2.2 典型相关变量具有如下关系:
性质13.2.3 典型相关变量分别为的特征向量。

对13.2.2的说明:因为具有相同的非零特征值,都是的解。所以 X和Y 的典型相关系数也可以通过后者得到。

证明13.2.3:根据上面13.2的定义可得:

定理和推论 说明
定理13.2.1 对固定的,记, 其中满足约束条件:,则, 且最大值在处达到。
定理13.2.2 记 $X^ = U’X + uY^ = V’Y + vUVp \times pq \times quvp \times 1q \times 1X^Y^XYX^Y^a_i^ = U^{-1}a_i, \quad b_i^ = V^{-1}b_ia_ib_iXY$ 的典型相关向量。
推论13.2.1 $X^Y^XYa_i^ = \text{diag}(\Sigma_{11})^{1/2} a_i, \quad b_i^ = \text{diag}(\Sigma_{22})^{1/2} b_i \ a_i = (\text{diag}(\Sigma_{11}))^{-1/2} a_i^, \quad b_i = (\text{diag}(\Sigma_{22}))^{-1/2} b_i^$.

ところで、既然不会考这个定理的证明,那么我们就暂时(永遠に)不写了hh。

进行标准化,得:$X^ = (\text{diag}(\Sigma_{11}))^{-1/2} X, \quad Y^ = (\text{diag}(\Sigma_{22}))^{-1/2} Y\text{diag}(A)A\rho_1, \dots, \rho_p\rho_r = \rho_{r+1}$​),典型相关系数向量的选择并不唯一。

典型相关分析的所有k步

步骤 详细说明(与性质部分同)
1 的秩为,则向量一共有组(对)典型相关变量和个典型相关系数.
2 分别是个非零特征根所对应的正则正交特征向量,其中.
- , 则称为第组(对)典型相关变量,的相关系数为,称为第个典型相关系数,. 分别是的特征根所对应的特征向量,.
3 组(对)典型相关变量是正则的,即 .
4 典型相关变量之间是正交的, 即对,有:
5 第1组(对)典型相关变量是下述条件极值问题的解: 在的条件下使得达到最大值,其最大值为.
6 ,第组(对)典型相关变量是下述条件极值问题的解: 在且对任意都有 的条件下使得达到最大值,其最大值为

典型相关分析的作用

一、特征向量与特征根

的秩为。 则的特征根 所对应的 正则正交特征向量为

相应地,的特征根 所对应的 正则正交特征向量为

二、相关性与降维

令:

其中,

则有 :

其中

不难看出,的相关性等价于的相关性。 由于,因此用分别代表 可以起到数据降维的作用。

事实上,若记, 则就是的第组(对)典型相关变量, 它们的相关系数就是第个典型相关系数

相关知识:矩阵二次型极值的性质

在此文中,我们给出了两种解释典型相关分析的方法:

SVD-奇异值分解 矩阵二次型极值
直接通过对协方差矩阵 R 进行 SVD,获得了最大相关系数(即奇异值)及其对应的特征向量,进而给出了经典的典型相关分析的解法。 从优化问题出发的一个理论框架,最终是要解决如何最大化一个关于矩阵的表达式。

如何通过矩阵的特征值和特征向量来求解最大值。

性质1 : 设 的非零矩阵, 分别是 阶和 阶的正定矩阵,则:

其中, 的最大特征根,且

上式在 时达极大,且 ,其中, 分别是 作为 的最大特征根所对应的正则特征向量。

由性质1,典型相关分析第1步,约束极值问题

的解为: 的最大值为 .

的最大特征根,在 时取最大值,其中, 分别是 的最大特征根 所对应的正则特征向量。

因此, 的相关系数 。 此时, 分别是 的最大特征根 所对应的特征向量。

时, 相互独立。

因此, 的任意线性组合都相互独立,相关系数的最大值也为零。

性质2 : 设 是秩为 的非零矩阵,。 则 阶矩阵 个非负特征根中有 个正的特征根 ,其余 个特征根为 。 同理, 阶矩阵 个非负特征根中有 ,其余 个特征根为

的特征根所对应的正则正交特征向量, 的特征根所对应的正则正交特征向量。

相关结论:

  1. ,则在 的正则化约束条件下, 时取最大值,并且
  2. 对给定的 满足如下约束条件:
    • 正则化约束
    • 正交化约束:对所有 ,都有:
    • 则在正则正交约束下有 :
      • 时,,当 时取最大值,且
      • 时,

5.2.2 样本典型相关分析

在大多数实际应用中都是未知的,因此,典型相关系数和典型相关变量都是未知的,需要由样本来估计。

设正态总体有样本,i.i.d.。 则极大似然估计为:

性质

由于特征根是矩阵中各元素的非退化连续函数,因此由正态随机变量组成的矩阵的特征根是连续型随机变量。 那么,该矩阵的特征根以概率1满足:

样本典型相关变量与系数

分别是的特征根所对应的正则正交特征向量。

  • 为第组(对)样本典型相关变量
  • 为第个样本典型相关系数,

不难知道,分别是的特征根所对应的特征向量,

分别是总体典型相关变量和总体典型相关系数的极大似然估计,

Q: 由于,如何判断有意义的典型相关变量?

A: 即给出一个估计,认为:

5.2.3 典型相关变量个数的检验

设正态总体有样本。 记为样本离差阵:

典型相关变量个数等于0 vs. 大于0的检验问题

典型相关变量个数,即独立(不相关)。

因此上述检验问题等价于:正态假设下,的独立性检验问题。

似然比统计量为 :

在零假设下,有。因此可以用零分布构造检验方案,也可由似然比统计量的渐近分布构造检验方案。

典型相关变量的个数等于 vs. 大于的检验问题

等价于检验问题:

也等价于检验问题:

也等价于检验问题:

似然比统计量为 :

其中是任意的列满秩矩阵。 由于,因此有 其中的满秩矩阵,而的矩阵。

因此,有:

由Wilks定理知:

进而构造检验方案。也可以采用修正的统计量:

5.3 广义相关系数

设随机变量,记:

的线性关联阵。

,称的相关秩。

记线性关联阵的非零特征根为。 四、广义相关系数 则下面定义的每个量都称为的广义相关系数:

5.4 实例分析

image-20241214114658874

变量间的相关系数矩阵 |

X1 X2 y1 y2 y3
X1 1.00 0.80 0.26 0.67 0.34
X2 0.80 1.00 0.33 0.59 0.34
y1 0.26 0.33 1.00 0.37 0.21
y2 0.67 0.59 0.37 1.00 0.35
y3 0.34 0.34 0.21 0.35 1.00

典型相关分析:

典型相关系数 典型相关系数的平方
1 0.687948 0.473272
2 0.186865 0.034919

X组典型变量的系数:

U1 U2
X1(就餐) 0.7689 -1.4787
X2(电影) 0.2721 1.6443

Y组典型变量的系数 :

V1 V2
Y1(年龄) 0.0491 1.0003
Y2(收入) 0.8975 -0.5837
Y3(文化) 0.1900 0.2956

典型变量的结构(相关系数)

U1 U2
X1 0.9866 -0.1632
X2 0.8872 0.4461
V1 V2
Y1 0.4211 0.8464
Y2 0.9822 -0.1101
Y3 0.5145 0.3013

V1 V2
X1 0.6787 -0.0305
X2 0.6104 0.0862
U1 U2
Y1 0.2897 0.1582
Y2 0.6757 -0.0206
Y3 0.3539 0.0563
  • 两个反映消费的指标与第一对典型变量中的相关系数分别为0.9866和0.8872,可以看出可以作为消费特性的指标;
  • 第一对典型变量中之间的相关系数为0.9822,可见典型变量主要代表了家庭收入;
  • 的相关系数为0.6787,这就说明家庭的消费与一个家庭的收入之间其关系是很密切的。

检验典型相关变量的个数: vs.

此时,样本量。 检验统计量、p值为:

结论:拒绝的假设,即不能认为两组变量不相关。

检验典型相关变量的个数: vs.

检验统计量、p值为:

结论:没有足够证据拒绝零假设。可以认为典型相关变量的个数为1。

搜索
匹配结果数:
未搜索到匹配的文章。