Ch5 相关分析

[TOC]

どうぞよろしくお願い～OvO

5.0 例：家庭特征与家庭消费之间的关系

统计分析方法：典型相关分析

典型相关分析：研究两组变量之间相关性的一种统计分析方法，也是一种降维技术。

5.1 复相关系数

之前我们评估两个随机变量之间的相关程度，使用的是Pearson相关系数：. 但当X 和 Y 其中之一换成随机向量时，Pearson相关系数就不再适用。

为衡量随机变量和随机向量、随机向量和随机向量之间的相关程度，一个常用的方法就是采用线性投影，讲随机向量通过某个线性变化投影成一元随机变量，然后就可以采用两变量的相关系数来定义随机变量和随机向量、随机向量和随机向量之间的相关程度。

两个单变量之间	一个单变量与一个向量之间	两个向量之间
“一对一”	“一对多”	“多对多”
(简单)相关系数、偏相关系数	复相关系数	典型相关系数

5.1.1 总体复相关系数

设随机向量，其中。

将，和分别剖分为：

$Y = \begin{pmatrix} y_1 \\ Y_2 \end{pmatrix}, \quad \mu = \begin{pmatrix} \mu_1 \\ \mu_2 \end{pmatrix}, \quad \Sigma = \begin{pmatrix} \sigma_{11} & \Sigma_{12} \\ \Sigma_{21} & \Sigma_{22} \end{pmatrix}$

其中，；；；是阶正定阵。

考虑与之间的简单相关系数，其中，

$\begin{align} \rho_{y_1,a'Y_2} &= \frac{\text{Cov}(y_1,a'Y_2)}{\sqrt{\text{Var}(y_1)}\sqrt{\text{Var}(a'Y_2)}} = \frac{\text{Cov}(y_1,Y_2)a}{\sqrt{\sigma_{11}}\sqrt{a'\text{Var}(Y_2)a}}\\ &= \frac{\Sigma_{12}a}{\sqrt{\sigma_{11}}\sqrt{a'\Sigma_{22}a}} \end{align}$

则定义与的复相关系数为:

$\rho_{y_1,Y_2} = \sup_{a \in R^{p - 1}} \rho_{y_1,a'Y_2} = \frac{1}{\sqrt{\sigma_{11}}} \sup_{a \in R^{p - 1}} \frac{\Sigma_{12}a}{\sqrt{a'\Sigma_{22}a}}$

由的非负性、Cauchy - Schwarz不等式知 :

$\rho_{y_1,Y_2} = \frac{1}{\sqrt{\sigma_{11}}} \sqrt{\sup_{a \in R^{p - 1}} \frac{(\Sigma_{12}a)^2}{a'\Sigma_{22}a}} = \sqrt{\frac{\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}}{\sigma_{11}}}$

上式在达最大, c是任一非零常数。对应线性模型中的回归系数：, 是随机误差。这就是复相关系数的平方常被用于刻画线性模型拟合程度的一个原因。

定理 1: 当时，的方差取得最小值：，与最接近，。

与的相关系数最大，为复相关系数，本质上刻画了和的线性相关程度。

证明：对任意，有 :
$\begin{align*} \text{Var}(y_1 - b'Y_2)&=\text{Var}[(y_1 - a'Y_2)+(a - b)'Y_2]\\ &=\text{Var}(y_1 - a'Y_2)+(a - b)'\text{Cov}(Y_2)(a - b)\\&+2\text{Cov}[(y_1 - a'Y_2),(a - b)'Y_2] \end{align*}$
由于，则有:
$\begin{align*} \text{Cov}[(y_1 - a'Y_2),Y_2]&=\text{Cov}(y_1,Y_2)-a'\text{Cov}(Y_2,Y_2)\\ &=\Sigma_{12}-a'\Sigma_{22}\\ &=0 \end{align*}$
方差关系有：
$\begin{align*} Var(y_1 - b'Y_2) &= Var(y_1 - a'Y_2)+(a - b)'Var(Y_2)(a - b)\\ &= Var(y_1 - a'Y_2)+(a - b)'\Sigma_{22}(a - b)\\ &\geq Var(y_1 - a'Y_2) \\\\ Var(y_1 - a'Y_2) &= Var(y_1)+Var(a'Y_2)-2Cov(y_1,a'Y_2)\\ &= \sigma_{11}+\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}-2\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}\\ &= \sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}\\ &= Var(y_1|Y_2) \end{align*}$
由定理1知：达最小意味着与最接近，即与最接近。

因此可以用个预报因子的线性组合来预测单个因变量，其最优斜率为，最优截距为。

注意到：
$\begin{align*} E(y_1|Y_2) &= \mu_1+\Sigma_{12}\Sigma_{22}^{-1}(Y_2 - \mu_2)\\ &= \mu_1+a'(Y_2 - \mu_2)\\ &= (\mu_1 - a'\mu_2)+a'Y_2 \end{align*}$
条件期望是最优(方差最小)的线性预测。

复相关系数定义(变量-向量之间)

变量与向量之间的复相关系数为其中，，，。

复相关系数的性质：

；
越大则与的相关性越强；
，即与独立。

5.1.2 样本复相关系数

在实际应用中，我们通常没有总体的参数，而是通过样本来估计这些参数。

样本复相关系数 r 是总体复相关系数的一个估计。样本复相关系数 r 的形式类似于总体复相关系数，但由于样本的有限性，样本复相关系数会受到抽样误差的影响。为了提高估计的准确性，样本的数量越多，估计的准确性也越高。

设总体，其样本为。考虑的剖分。

记，和分别为样本均值、样本离差阵和样本协差阵，并对它们作相应剖分。

则由与的复相关系数:

$\rho_{x^{(1)},X^{(2)}}=\sqrt{\frac{\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}}{\sigma_{11}}}$

定义与的样本复相关系数为:

$r_{x^{(1)},X^{(2)}}=\sqrt{\frac{V_{12}V_{22}^{-1}V_{21}}{v_{11}}}$

以及的估计为。不难知道，它们分别是复相关系数和方向的极大似然估计。

修正的样本复相关系数
$(r_{x^{(1)},X^{(2)}}^*)^2 = r_{x^{(1)},X^{(2)}}^2-\frac{p - 1}{n - p}(1 - r_{x^{(1)},X^{(2)}}^2)$
用途：

当时，修正的样本复相关系数=样本复相关系数;

当时，修正的样本复相关系数<样本复相关系数。

在对线性回归模型做模型选择时，常用修正的样本相关系数来判断是否再选入一个预报因子。

样本复相关系数的分布

的情形：与独立

由Wishart分布的独立分解性质知，

:衡量残差方差的量,在和独立的情形下，会服从自由度为的卡方分布，因为它的形式类似于在进行回归分析时残差平方和的分布。

:是标准化后的（和之间的协方差向量）。我们通过乘以来标准化它。

$\begin{align} t_1 &= v_{11}-V_{12}V_{22}^{-1}V_{21}\stackrel{d}{\sim}\sigma_{11}\chi^2(n - p)\\ t_2 &= V_{22}^{-1/2}V_{21}\stackrel{d}{\sim}N_{p - 1}(0,\sigma_{11}I_{p - 1}) \end{align}$

且与独立。因此，

$\begin{align}F&=\frac{n - p}{p - 1}\cdot\frac{r_{x^{(1)},X^{(2)}}^2}{1 - r_{x^{(1)},X^{(2)}}^2}\\ &=\frac{n - p}{p - 1}\cdot\frac{V_{12}V_{22}^{-1}V_{21}}{v_{11}-V_{12}V_{22}^{-1}V_{21}}\\ &=\frac{t_2^2/(p - 1)}{t_1/(n - p)}\stackrel{d}{\sim}F(p - 1,n - p)\end{align}$

则由可以检验与是否相互独立。

注：该检验与3.3.6中独立性检验在的情形一致。

一般情形

考虑变换，并对作相同剖分:

$Y=\begin{pmatrix}y^{(1)}\\Y^{(2)}\end{pmatrix}=\begin{pmatrix}\sigma_{11}^{-\frac 1 2}x^{(1)} \\ \Sigma_{22}^{-\frac 1 2}X^{(2)}\end{pmatrix}\\ Y\stackrel{d}{\sim}N_{p}\left(\begin{pmatrix}\sigma_{11}^{-\frac 1 2}\mu_1\\\Sigma_{22}^{-\frac 1 2}\mu_2\end{pmatrix},\begin{pmatrix}1&\sigma^{-\frac 1 2}_{11}\Sigma_{12}\Sigma_{22}^{-\frac 1 2}\\\sigma^{-\frac 1 2}_{11}\Sigma_{22}^{-\frac 1 2}\Sigma_{21}&I_{p - 1}\end{pmatrix}\right)\\\\ \rho_{y^{(1)},Y^{(2)}}=\Sigma_{12}\Sigma_{21}=\sqrt{\frac{\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}}{\sigma_{11}}}=\rho_{x^{(1)},X^{(2)}}$

因此，不失一般性，可以假设的协差阵为 ,

此时有。简记。

对上述结果的解释说明：

Y的均值、方差按照计算。

有,

所以.

对协方差矩阵进行标准化后，每个部分的方差（如和的方差）变为 1。所以内部向量都是独立同分布的，二者的相关性就体现在上。

Q: 为什么可以假设的协差阵为 ?

A: 因为我们通过线性变换已经证明这两个分量，本身内部都是独立同分布的。

通过标准化和的方差结构，使得我们可以更加集中于研究与之间的相关性，而不需要处理不同变量之间的不同单位和规模。

由Wishart分布的性质知：

；
，；
在给定的条件下，；
与相互独立。

则在给定的条件下，根据条件独立性，u 服从一个加权的非中心卡方分布；而u的非中心参数又服从另外一个加权的卡方分布：

$u = t_{2}'{t}_{2}=V_{12}V_{22}^{-1}V_{21} \stackrel{d}{\sim} (1 - \rho^2)\chi^2(p-1, \eta),\quad\eta=\frac{\sum_{12}V_{22}^{-1}\sum_{21}}{1 - \rho^2}\\ \eta \stackrel{d}{\sim} \tau\chi^2(n - 1)，\tau = \frac{\sum_{12}\sum_{21}}{1 - \rho^2}=\frac{\rho^2}{1 - \rho^2}$

由此可以导出的密度函数。又由于:

$z = \frac{r^2_{x^{(1)},X^{(2)}}}{1 - r^2_{x^{(1)},X^{(2)}}}=\frac{V_{12}V_{22}^{-1}V_{21}}{v_{11}-V_{12}V_{22}^{-1}V_{21}}=\frac{u}{t_1}$

可以导出的分布，进而推出的密度函数:

$\frac{(1 - \rho^2)^{\frac{n-1}2}(1 - R)^{\frac{n - p - 2}2}}{\Gamma(\frac{n-1}2)\Gamma(\frac{n - p}2)}\sum_{k = 0}^{\infty}\frac{\rho^{2k}R^{\frac{p-1}2 + k - 1}}{k!\Gamma(\frac{p-1}2 + k)}\Gamma^2(\frac{n-1}2 + k)$

密度函数揭示了 相关性强弱 对结果的影响，进而使得假设检验更加精确和可靠。例如，如果计算出很小，可以认为和之间几乎没有线性相关性，从而支持它们独立的假设；而如果较大，则可能需要进一步检查相关性的显著性。

5.2 典型相关分析

典型相关系数定义(向量-向量之间)

设分别为p维和q维随机向量：，其协方差矩阵为：

$\text{Cov}\begin{pmatrix}X\\Y\end{pmatrix} =\Sigma=\begin{pmatrix}\Sigma_{11}&\Sigma_{12}\\\Sigma_{21}&\Sigma_{22}\end{pmatrix}$

其中：，正定。

设a和b分别为p维和q维任意非零的常数向量：

$\rho(a'X,b'Y)=\frac{a'\Sigma_{12}b}{\sqrt{(a'\Sigma_{11}a)(b'\Sigma_{22}b)}}$

由于相关系数不受a和b常数倍的影响，为简单起见，对进行标准化，令：

$Var(a'X)=a'\Sigma_{11}a=1,\quad Var(b'Y)=b'\Sigma_{22}b=1$

(书p485)定理13.1.1：和的最大相关系数为：

$\max_{a,b}\rho(a'X,b'Y)=\sqrt{\lambda_1}$

在标准化的方差约束条件下，最大值在时达到，其中分别为矩阵的最大特征值和最大特征值对应的特征向量。

定理13.1.1表明，要求a和b，可以先求a再求b，也可以先求b再求a。。

因此把称为和的第一典型相关系数：

当越接近0，说明和的相关程度越弱；
当越接近1，说明和的相关程度越强。

但上面的得到的的相关系数往往并不能完全反映和的相关程度，需要考虑和的更多组线性组合的相关系数。

5.2.1 总体典型相关分析

设分别为p维和q维随机向量：，其协方差矩阵为：

$\text{Cov}\begin{pmatrix}X\\Y\end{pmatrix} =\Sigma=\begin{pmatrix}\Sigma_{11}&\Sigma_{12}\\\Sigma_{21}&\Sigma_{22}\end{pmatrix}$

其中 : .

类似随机变量间相关系数，定义：

$R=\Sigma_{11}^{-\frac 1 2}\Sigma_{12}\Sigma_{22}^{-\frac 1 2}$

根据定理13.1.1，的最大相关关系就是R的最大奇异值。分别为最大特征值对应的标准化后的特征向量。当R存在多个非零奇异值时，X 和 Y 存在多组典型相关变量。 具体定义如下：

(书p486)定义13.2(总体的典型相关)：记R的奇异值分解为：
$R=P\Lambda Q'$
此处, 分别为的列正交矩阵。为R的非奇异值。分别为对应于共同特征值的标准化的特征向量。

X 和 Y的典型相关向量：
$a_i=\Sigma_{11}^{-\frac 1 2}\theta_i,\quad b_i=\Sigma_{22}^{-\frac 1 2}\beta_i$
X 和 Y的第i对典型相关向量：

X 和 Y的第i个典型相关系数：

A.典型相关系数的性质

性质	説明
性质13.2.1	典型相关变量的方差都被标准化为1，且不同组的典型相关变量是不相关的。
性质13.2.2	典型相关变量具有如下关系：
性质13.2.3	典型相关变量分别为的特征向量。

对13.2.2的说明：因为与具有相同的非零特征值，都是的解。所以 X和Y 的典型相关系数也可以通过后者得到。

证明13.2.3：根据上面13.2的定义可得：
$\because\Sigma_{11}^{-1}\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}\Sigma_{11}^{-1}\theta_i=\lambda_i\Sigma_{11}^{-1}\theta_i\\ \therefore\Sigma_{11}^{-1}\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}a_i=\lambda_ia_i\\ 同理,\Sigma_{22}^{-1}\Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12}b_i=\lambda_ib_i\\$

定理和推论	说明
定理13.2.1	对固定的,记, 其中满足约束条件：,则, 且最大值在处达到。
定理13.2.2	记 $X^ = U’X + uY^ = V’Y + v $，其中$ U $和$ V $分别为$ p \times p $和$ q \times q $的任意可逆的常数矩阵，$ u $和$ v $分别为$ p \times 1 $和$ q \times 1 $的常数向量。则$ X^ $和$ Y^ $的典型相关系数就等于$ X $和$ Y $的典型相关系数；$ X^ $和$ Y^ $的典型相关向量分别为：$ a_i^ = U^{-1}a_i, \quad b_i^ = V^{-1}b_i $，其中$ a_i $和$ b_i $分别为$ X $和$ Y$ 的典型相关向量。
推论13.2.1	$X^ $和$ Y^ $与$ X $和$ Y $具有相同的典型相关系数和相应的典型相关变量组，且两者典型相关向量间满足：$ a_i^ = \text{diag}(\Sigma_{11})^{1/2} a_i, \quad b_i^ = \text{diag}(\Sigma_{22})^{1/2} b_i \ a_i = (\text{diag}(\Sigma_{11}))^{-1/2} a_i^, \quad b_i = (\text{diag}(\Sigma_{22}))^{-1/2} b_i^$.

ところで、既然不会考这个定理的证明，那么我们就暂时(永遠に)不写了hh。

对和进行标准化，得：$X^ = (\text{diag}(\Sigma_{11}))^{-1/2} X, \quad Y^ = (\text{diag}(\Sigma_{22}))^{-1/2} Y $其中，$ \text{diag}(A) $表示由方阵$ A $的对角元素构成的对角矩阵。由定理，可得推论值得注意的是，当$ \rho_1, \dots, \rho_p $中存在两个相等时（即$ \rho_r = \rho_{r+1}$），典型相关系数向量的选择并不唯一。

典型相关分析的所有k步

步骤	详细说明(与性质部分同)
1	设的秩为，则向量与一共有组（对）典型相关变量和个典型相关系数.
2	设和分别是和的个非零特征根所对应的正则正交特征向量，其中，.
-	令，，，则称为第组（对）典型相关变量，与的相关系数为，称为第个典型相关系数，. 和分别是和的特征根所对应的特征向量，.
3	第组（对）典型相关变量是正则的，即，，.
4	典型相关变量之间是正交的，即对，有:
5	第1组（对）典型相关变量是下述条件极值问题的解：在，的条件下使得达到最大值，其最大值为.
6	对，第组（对）典型相关变量是下述条件极值问题的解：在，且对任意都有的条件下使得达到最大值，其最大值为

典型相关分析的作用

一、特征向量与特征根

设的秩为，。则的特征根所对应的正则正交特征向量为。

相应地，的特征根所对应的正则正交特征向量为。

二、相关性与降维

令:

$U = A'\Sigma_{11}^{-\frac 1 2}X,V = B'\Sigma_{22}^{-\frac 1 2}Y\\ W_{1}=C_{1}'\Sigma_{11}^{-\frac 1 2}X,W_{2}=C_{2}'\Sigma_{22}^{-\frac 1 2}Y\\W=(W_{1}',W_{2}')'$

其中，

$A = (\alpha_{1},\cdots,\alpha_{k}),B = (\beta_{1},\cdots,\beta_{k})\\ C_{1}=(\alpha_{k + 1},\cdots,\alpha_{p}),C_{2}=(\beta_{k + 1},\cdots,\beta_{q})$

则有 :

$Cov\left(\begin{array}{c}U\\V\\W\end{array}\right)=\left(\begin{array}{ccc}I_{k}&\Lambda&0\\\Lambda&I_{k}&0\\0&0&I_{p + q-2k}\end{array}\right)$

其中。

不难看出，与的相关性等价于与的相关性。由于，因此用与分别代表与可以起到数据降维的作用。

事实上，若记，，则就是与的第组(对)典型相关变量，它们的相关系数就是第个典型相关系数，。

SVD-奇异值分解	矩阵二次型极值
直接通过对协方差矩阵 R 进行 SVD，获得了最大相关系数（即奇异值）及其对应的特征向量，进而给出了经典的典型相关分析的解法。	从优化问题出发的一个理论框架，最终是要解决如何最大化一个关于矩阵的表达式。

5.2.2 样本典型相关分析

在大多数实际应用中都是未知的，因此，典型相关系数和典型相关变量都是未知的，需要由样本来估计。

设正态总体有样本，i.i.d.，。则，和极大似然估计为:

$\hat{\Sigma}_{11}=\frac 1 n\sum_{i = 1}^{n}(x_i-\bar{x}_n)(x_i-\bar{x}_n)'\\ \hat{\Sigma}_{22}=\frac 1 n\sum_{i = 1}^{n}(y_i-\bar{y}_n)(y_i-\bar{y}_n)'\\ \hat{\Sigma}_{12}=\frac 1 n\sum_{i = 1}^{n}(x_i-\bar{x}_n)(y_i-\bar{y}_n)'$

性质

由于特征根是矩阵中各元素的非退化连续函数，因此由正态随机变量组成的矩阵的特征根是连续型随机变量。那么，该矩阵的特征根以概率1满足：

$1>\hat{\lambda}_1^2>\cdots>\hat{\lambda}_p^2>0$

样本典型相关变量与系数

记和分别是和的特征根所对应的正则正交特征向量。

令，，。

称为第组(对)样本典型相关变量
称为第个样本典型相关系数，。

不难知道，和分别是和的特征根所对应的特征向量，。

和分别是总体典型相关变量和总体典型相关系数的极大似然估计，。

Q: 由于，如何判断有意义的典型相关变量？

A: 即给出一个估计，认为:
$\lambda_1^2>\cdots>\lambda_k^2>0\\ \lambda_{k + 1}^2=\cdots=\lambda_p^2 = 0$

5.2.3 典型相关变量个数的检验

设正态总体有样本，，。记为样本离差阵:

$V=\left(\begin{array}{ll} V_{11} & V_{12} \\ V_{21} & V_{22} \end{array}\right) \\\begin{cases}V_{11}=\sum_{i = 1}^{n}(x_i-\bar{x}_n)(x_i-\bar{x}_n)'\\ V_{22}=\sum_{i = 1}^{n}(y_i-\bar{y}_n)(y_i-\bar{y}_n)', \\V_{12}=\sum_{i = 1}^{n}(x_i-\bar{x}_n)(y_i-\bar{y}_n)' \end{cases}$

典型相关变量个数等于0 vs. 大于0的检验问题

典型相关变量个数，即与独立（不相关）。

因此上述检验问题等价于：正态假设下，与的独立性检验问题。

似然比统计量为：

$\lambda=\left(\frac{|V|}{|V_{11}||V_{22}|}\right)^{n/2}=\left(\frac{|V_{11}-V_{12}V_{22}^{-1}V_{21}|}{|V_{11}|}\right)^{n/2}\\ =\vert I_p-V_{11}^{-1}V_{12}V_{22}^{-1}V_{21}\vert^{n/ 2}=\left[\prod_{i = 1}^{p}(1-\hat{\lambda}_i^2)\right]^{n/2}\\ T_0=\prod_{i = 1}^{p}(1 - \hat{\lambda}_i^2)=\frac{|V_{11}-V_{12}V_{22}^{-1}V_{21}|}{|(V_{11}-V_{12}V_{22}^{-1}V_{21})+V_{12}V_{22}^{-1}V_{21}|}$

在零假设下，有。因此可以用零分布构造检验方案，也可由似然比统计量的渐近分布构造检验方案。

$- 2\log(\lambda)=-n\sum_{i = 1}^{p}\log(1-\hat{\lambda}_i^2)\stackrel{d}{\sim}\chi^2(pq)$

典型相关变量的个数等于 vs. 大于的检验问题

等价于检验问题：

$H_0:rank(\Sigma_{12})=k\quad vs.\quad H_1:rank(\Sigma_{12})>k$

也等价于检验问题：

$H_0:\lambda_k^2>0,\lambda_{k + 1}^2 = 0\quad vs.\quad H_1:\lambda_{k + 1}^2>0$

也等价于检验问题：

$H_0:存在p\times(p - k)的列满秩矩阵C，使得\Sigma_{22}^{-1}\Sigma_{21}C = 0$

似然比统计量为 :

$\begin{align}\lambda&=\sup_{C}\left[\frac{|C'(V_{11}-V_{12}V_{22}^{-1}V_{21})C|}{|C'V_{11}C|}\right]^{n/2}\\ &=\sup_{C'C = I_{p - k}}\vert C'(I_p-RR')C\vert^{n/2}\\ &=\sup_{D'D = I_{p - k}}\frac{|D'diag(1-\hat{\lambda}_1^2,\cdots,1-\hat{\lambda}_p^2)D|}{|D'D|}\\ &=\left[\prod_{i = k + 1}^{p}(1-\hat{\lambda}_i^2)\right]^{n/2} \end{align}$

其中是任意的列满秩矩阵。由于，因此有其中是的满秩矩阵，而，是的矩阵。

因此，有:

$\begin{align*}& \dim(\Theta_0)=p + q + p(p + 1)/2 + q(q + 1)/2 + kq+(p - k)k\\ &\dim(\Theta)-\dim(\Theta_0)=(p - k)(q - k) \end{align*}$

由Wilks定理知:

$-2\log(\lambda)=-n\sum_{i = k + 1}^{p}\log(1 - \hat{\lambda}_i^2)\stackrel{d}{\rightarrow}\chi^2((p - k)(q - k))$

进而构造检验方案。也可以采用修正的统计量:

$-\left(n - 1 - k-\frac{p + q + 1}{2}+\sum_{i = 1}^{k}\hat{\lambda}_i^2\right)\sum_{i = k + 1}^{p}\log(1 - \hat{\lambda}_i^2)$

5.3 广义相关系数

设随机变量和，记:

$\Sigma = Cov\left(\begin{matrix}X\\Y\end{matrix}\right)=\left(\begin{matrix}\Sigma_{11}&\Sigma_{12}\\\Sigma_{21}&\Sigma_{22}\end{matrix}\right)>0$

称为和的线性关联阵。

记，称为和的相关秩。

记线性关联阵的非零特征根为。四、广义相关系数则下面定义的每个量都称为与的广义相关系数：

$\begin{cases} \ \rho_{12}^{(1)}=\left(\prod_{i = 1}^{k}\lambda_{i}\right)^{1/k}\\ \ \rho_{12}^{(2)}=\frac 1 k\sum_{i = 1}^{k}\lambda_{i}^{2}\\ \ \rho_{12}^{(3)}=\lambda_{1}^{2}\\ \ \rho_{12}^{(4)}=\lambda_{k}^{2}\\ \ \rho_{12}^{(5)}=\left(\frac 1 k\sum_{i = 1}^{k}\lambda_{i}^{-2}\right)^{-1} \end{cases}$

5.4 实例分析

变量间的相关系数矩阵 |

	X1	X2	y1	y2	y3
X1	1.00	0.80	0.26	0.67	0.34
X2	0.80	1.00	0.33	0.59	0.34
y1	0.26	0.33	1.00	0.37	0.21
y2	0.67	0.59	0.37	1.00	0.35
y3	0.34	0.34	0.21	0.35	1.00

典型相关分析:

	典型相关系数	典型相关系数的平方
1	0.687948	0.473272
2	0.186865	0.034919

X组典型变量的系数:

	U1	U2
X1(就餐)	0.7689	-1.4787
X2(电影)	0.2721	1.6443

Y组典型变量的系数 :

	V1	V2
Y1(年龄)	0.0491	1.0003
Y2(收入)	0.8975	-0.5837
Y3(文化)	0.1900	0.2956

典型变量的结构（相关系数）

	U1	U2
X1	0.9866	-0.1632
X2	0.8872	0.4461

	V1	V2
Y1	0.4211	0.8464
Y2	0.9822	-0.1101
Y3	0.5145	0.3013

	V1	V2
X1	0.6787	-0.0305
X2	0.6104	0.0862

	U1	U2
Y1	0.2897	0.1582
Y2	0.6757	-0.0206
Y3	0.3539	0.0563

两个反映消费的指标与第一对典型变量中的相关系数分别为0.9866和0.8872，可以看出可以作为消费特性的指标；
第一对典型变量中与之间的相关系数为0.9822，可见典型变量主要代表了家庭收入；
和的相关系数为0.6787，这就说明家庭的消费与一个家庭的收入之间其关系是很密切的。

检验典型相关变量的个数： vs.

此时，样本量，，。检验统计量、p值为：

$\begin{align*} - 2\log(\lambda)&=-n\sum_{i = k + 1}^{p}\log(1-\hat{\lambda}_{i}^{2})\\ &=-70[\log(1 - 0.473272)+\log(1 - 0.034919)]\\ &=47.363 \\\\ P\{\chi^{2}(pq)> - 2\log(\lambda)\}&=P\{\chi^{2}(6)>47.363\} \\&= 1.584\times10^{-8}<0.05 \end{align*}$

结论：拒绝的假设，即不能认为两组变量不相关。

检验典型相关变量的个数： vs.

检验统计量、p值为：

$\begin{align*} - 2\log(\lambda)&=-n\sum_{i = k + 1}^{p}\log(1-\hat{\lambda}_{i}^{2})\\ &=-70\log(1 - 0.034919)\\ &=2.488\\\\ P\{\chi^{2}((p - k)(q - k))> - 2\log(\lambda)\}&=P\{\chi^{2}(2)>2.488\}\\&=0.288>0.05 \end{align*}$

结论：没有足够证据拒绝零假设。可以认为典型相关变量的个数为1。

多元统计分析-Ch5-相关分析

Ch5 相关分析

5.0 例：家庭特征与家庭消费之间的关系

5.1 复相关系数

5.1.1 总体复相关系数

复相关系数定义(变量-向量之间)

5.1.2 样本复相关系数

样本复相关系数的分布

的情形：与独立

一般情形

5.2 典型相关分析

典型相关系数定义(向量-向量之间)

5.2.1 总体典型相关分析

A.典型相关系数的性质

典型相关分析的所有k步

典型相关分析的作用

相关知识：矩阵二次型极值的性质

5.2.2 样本典型相关分析

性质

样本典型相关变量与系数

5.2.3 典型相关变量个数的检验

典型相关变量个数等于0 vs. 大于0的检验问题

典型相关变量的个数等于 vs. 大于的检验问题

5.3 广义相关系数

5.4 实例分析

典型变量的结构（相关系数）

检验典型相关变量的个数： vs.

检验典型相关变量的个数： vs.