多元统计分析-Ch5-相关分析
Ch5 相关分析
[TOC]
どうぞよろしくお願い~OvO
5.0 例:家庭特征与家庭消费之间的关系
统计分析方法:典型相关分析
典型相关分析:研究两组变量之间相关性的一种统计分析方法,也是一种降维技术。
5.1 复相关系数
之前我们评估两个随机变量
之间的相关程度,使用的是Pearson相关系数: . 但当X 和 Y 其中之一换成随机向量时,Pearson相关系数就不再适用。 为衡量随机变量和随机向量、随机向量和随机向量之间的相关程度,一个常用的方法就是采用线性投影,讲随机向量通过某个线性变化投影成一元随机变量,然后就可以采用两变量的相关系数来定义随机变量和随机向量、随机向量和随机向量之间的相关程度。
相关关系:
两个单变量之间 | 一个单变量与一个向量之间 | 两个向量之间 |
---|---|---|
“一对一” | “一对多” | “多对多” |
(简单)相关系数、偏相关系数 | 复相关系数 | 典型相关系数 |
5.1.1 总体复相关系数
设随机向量
将
其中,
考虑
则定义
由
上式在
定理 1: 当
证明: 对任意
,有 : 由于
,则有: 方差关系有:
由定理1知:
达最小意味着 与 最接近,即 与 最接近。 因此可以用
个预报因子 的线性组合来预测单个因变量 ,其最优斜率为 ,最优截距为 。 注意到:
条件期望是最优(方差最小)的线性预测。
复相关系数定义(变量-向量之间)
变量
复相关系数
; 越大则 与 的相关性越强; ,即 与 独立。
5.1.2 样本复相关系数
在实际应用中,我们通常没有总体的参数,而是通过样本来估计这些参数。
样本复相关系数 r 是总体复相关系数
的一个估计。样本复相关系数 r 的形式类似于总体复相关系数,但由于样本的有限性,样本复相关系数会受到抽样误差的影响。为了提高估计的准确性,样本的数量越多,估计的准确性也越高。
设总体
记
则由
定义
以及
修正的样本复相关系数
用途:
- 当
时,修正的样本复相关系数=样本复相关系数; - 当
时,修正的样本复相关系数<样本复相关系数。 在对线性回归模型做模型选择时,常用修正的样本相关系数来判断是否再选入一个预报因子。
样本复相关系数的分布
的情形: 与 独立
由Wishart分布的独立分解性质知,
:衡量残差方差的量,在 和 独立的情形下, 会服从自由度为 的卡方分布 ,因为它的形式类似于在进行回归分析时残差平方和的分布。
:是标准化后的 ( 和 之间的协方差向量)。我们通过乘以 来标准化它。
且
则由
注:该检验与3.3.6中独立性检验在
的情形一致。
一般情形
考虑变换
因此,不失一般性,可以假设
此时有
对上述结果的解释说明:
Y的均值、方差按照
计算。 有
, 所以
. 对协方差矩阵进行标准化后,每个部分的方差(如
和 的方差)变为 1。所以内部向量都是独立同分布的,二者的相关性就体现在 上。 Q: 为什么可以假设
的协差阵为 ? A: 因为我们通过线性变换
已经证明这两个分量,本身内部都是独立同分布的。 通过标准化
和 的方差结构,使得我们可以更加集中于研究 与 之间的相关性,而不需要处理不同变量之间的不同单位和规模。
由Wishart分布的性质知:
; , ; - 在
给定的条件下, ; 与 相互独立。
则在
由此可以导出
可以导出
密度函数揭示了 相关性强弱 对结果的影响,进而使得假设检验更加精确和可靠。例如,如果计算出
5.2 典型相关分析
典型相关系数定义(向量-向量之间)
设
其中:
设a和b分别为p维和q维任意非零的常数向量:
由于相关系数
(书p485)定理13.1.1:
在标准化的方差约束条件下,最大值在
定理13.1.1表明,要求a和b,可以先求a再求b,也可以先求b再求a。
因此把
- 当
越接近0,说明 和 的相关程度越弱; - 当
越接近1,说明 和 的相关程度越强。
但上面的得到的
5.2.1 总体典型相关分析
设
其中 :
类似随机变量间相关系数,定义:
根据定理13.1.1,
(书p486)定义13.2(总体的典型相关):记R的奇异值分解为:
此处,
分别为 的列正交矩阵。 为R的非奇异值。 分别为 对应于共同特征值 的标准化的特征向量。 X 和 Y的典型相关向量:
X 和 Y的第i对典型相关向量:
X 和 Y的第i个典型相关系数:
A.典型相关系数的性质
性质 | 説明 |
---|---|
性质13.2.1 | 典型相关变量 |
性质13.2.2 | 典型相关变量 |
性质13.2.3 | 典型相关变量 |
对13.2.2的说明:因为
与 具有相同的非零特征值,都是 的解。所以 X和Y 的典型相关系数也可以通过后者得到。 证明13.2.3:根据上面13.2的定义可得:
定理和推论 | 说明 |
---|---|
定理13.2.1 | 对固定的 |
定理13.2.2 | 记 $X^ = U’X + u |
推论13.2.1 | $X^ |
ところで、既然不会考这个定理的证明,那么我们就暂时(永遠に)不写了hh。
对
和 进行标准化,得:$X^ = (\text{diag}(\Sigma_{11}))^{-1/2} X, \quad Y^ = (\text{diag}(\Sigma_{22}))^{-1/2} Y \text{diag}(A) A \rho_1, \dots, \rho_p \rho_r = \rho_{r+1}$),典型相关系数向量的选择并不唯一。
典型相关分析的所有k步
步骤 | 详细说明(与性质部分同) |
---|---|
1 | 设 |
2 | 设 |
- | 令 |
3 | 第 |
4 | 典型相关变量 |
5 | 第1组(对)典型相关变量 |
6 | 对 |
典型相关分析的作用
一、特征向量与特征根
设
相应地,
二、相关性与降维
令:
其中,
则有 :
其中
不难看出,
事实上,若记
相关知识:矩阵二次型极值的性质
在此文中,我们给出了两种解释典型相关分析的方法:
SVD-奇异值分解 | 矩阵二次型极值 |
---|---|
直接通过对协方差矩阵 R 进行 SVD,获得了最大相关系数(即奇异值)及其对应的特征向量,进而给出了经典的典型相关分析的解法。 | 从优化问题出发的一个理论框架,最终是要解决如何最大化一个关于矩阵的表达式。 |
如何通过矩阵的特征值和特征向量来求解最大值。
性质1 : 设
是 的非零矩阵, 和 分别是 阶和 阶的正定矩阵,则: 其中,
是 , , 或 的最大特征根,且 。 上式在
, 时达极大,且 ,其中, 和 分别是 作为 和 的最大特征根所对应的正则特征向量。
由性质1,典型相关分析第1步,约束极值问题
的解为:
因此,
当
因此,
性质2 : 设
是秩为 的 的非零矩阵, 。 则 阶矩阵 的 个非负特征根中有 个正的特征根 ,其余 个特征根为 。 同理, 阶矩阵 的 个非负特征根中有 ,其余 个特征根为 。 记
为 的特征根所对应的正则正交特征向量, 为 的特征根所对应的正则正交特征向量。 相关结论:
- 设
, ,则在 , 的正则化约束条件下, 当 , 时取最大值,并且 ; - 对给定的
, , 满足如下约束条件:
- 正则化约束:
, ; - 正交化约束:对所有
,都有: , , , 。 - 则在正则正交约束下有 :
- 当
时, ,当 , 时取最大值,且 ; - 当
时, 。
5.2.2 样本典型相关分析
在大多数实际应用中
都是未知的,因此,典型相关系数和典型相关变量都是未知的,需要由样本来估计。
设正态总体
性质
由于特征根是矩阵中各元素的非退化连续函数,因此由正态随机变量组成的矩阵
样本典型相关变量与系数
记
令
- 称
为第 组(对)样本典型相关变量 - 称
为第 个样本典型相关系数, 。
不难知道,
Q: 由于
,如何判断有意义的典型相关变量? A: 即给出一个估计
,认为:
5.2.3 典型相关变量个数的检验
设正态总体
典型相关变量个数等于0 vs. 大于0的检验问题
典型相关变量个数
因此上述检验问题等价于:正态假设下,
似然比统计量为 :
在零假设
典型相关变量的个数等于 vs. 大于 的检验问题
等价于检验问题:
也等价于检验问题:
也等价于检验问题:
似然比统计量为 :
其中
因此,有:
由Wilks定理知:
进而构造检验方案。也可以采用修正的统计量:
5.3 广义相关系数
设随机变量
称
记
记线性关联阵
5.4 实例分析
变量间的相关系数矩阵 |
X1 | X2 | y1 | y2 | y3 | |
---|---|---|---|---|---|
X1 | 1.00 | 0.80 | 0.26 | 0.67 | 0.34 |
X2 | 0.80 | 1.00 | 0.33 | 0.59 | 0.34 |
y1 | 0.26 | 0.33 | 1.00 | 0.37 | 0.21 |
y2 | 0.67 | 0.59 | 0.37 | 1.00 | 0.35 |
y3 | 0.34 | 0.34 | 0.21 | 0.35 | 1.00 |
典型相关分析:
典型相关系数 | 典型相关系数的平方 | |
---|---|---|
1 | 0.687948 | 0.473272 |
2 | 0.186865 | 0.034919 |
X组典型变量的系数
U1 | U2 | |
---|---|---|
X1(就餐) | 0.7689 | -1.4787 |
X2(电影) | 0.2721 | 1.6443 |
Y组典型变量的系数
V1 | V2 | |
---|---|---|
Y1(年龄) | 0.0491 | 1.0003 |
Y2(收入) | 0.8975 | -0.5837 |
Y3(文化) | 0.1900 | 0.2956 |
典型变量的结构(相关系数)
U1 | U2 | |
---|---|---|
X1 | 0.9866 | -0.1632 |
X2 | 0.8872 | 0.4461 |
V1 | V2 | |
---|---|---|
Y1 | 0.4211 | 0.8464 |
Y2 | 0.9822 | -0.1101 |
Y3 | 0.5145 | 0.3013 |
V1 | V2 | |
---|---|---|
X1 | 0.6787 | -0.0305 |
X2 | 0.6104 | 0.0862 |
U1 | U2 | |
---|---|---|
Y1 | 0.2897 | 0.1582 |
Y2 | 0.6757 | -0.0206 |
Y3 | 0.3539 | 0.0563 |
- 两个反映消费的指标与第一对典型变量中
的相关系数分别为0.9866和0.8872,可以看出 可以作为消费特性的指标; - 第一对典型变量中
与 之间的相关系数为0.9822,可见典型变量 主要代表了家庭收入; 和 的相关系数为0.6787,这就说明家庭的消费与一个家庭的收入之间其关系是很密切的。
检验典型相关变量的个数: vs.
此时,样本量
结论:拒绝
检验典型相关变量的个数: vs.
检验统计量、p值为:
结论:没有足够证据拒绝零假设。可以认为典型相关变量的个数为1。