【挑战20天学完多元统计分析，让我们说：DDL是最佳生产力！】

Ch1 多元分布

[TOC]

1.0 预备知识

1.0.1 随机变量

随机变量期望、矩、方差：

期望	$若连续若离散$
矩	$若连续若离散$
方差

1.0.2 随机向量

令，相互独立，当且仅当，其中是的边缘分布函数。

联合分布函数
联合概率密度函数(非负)	存在满足下式：
边缘分布	(也就是选取随机向量中的部分、构成的分布)。的个分量()的分布称为边缘分布。
边缘概率密度函数	对:
条件密度	令, 。在给定的条件密度为：$f(x^{(2)}	X^{(1)}=x^{(1)})=\frac{f(x^{(1)},x^{(2)})}{g(x^{(1)})} $，$ g(x^{(1)}) $是$ X^{(1)}$的边缘概率密度函数。

1.0.3 多元随机变量(随机向量)

期望
协方差
协方差

1.0.4 矩阵知识

一些运算：

：期望和trace的计算等级相同。
$\begin{align} Cov(AX)&=E\left[(AX-E(AX))(AX-E(AX))'\right]\\ &=E\left[A(X-E(X))(X-E(X))'A'\right]\\ &=AE\left[(X-E(X))(X-E(X))'\right]A'\\ &=ACov(X)A' \end{align}$
：二次型，此公式将期望值分解为常数项（期望向量的二次型）和随机项（协方差矩阵与 A 的迹）。

$\begin{align} E(X'AX)&=E(\sum_{i,j}X_iA_{ij}X_j)\\ &=\sum_{i,j}A_{ij}E(X_iX_j)\\ &=\sum_{i,j}A_{ij}(E(X_i)E(X_j)+Cov(X_i,X_j)\\ &=(E(X))'A(E(X))+tr(ACov(X)) \end{align}$

分块矩阵：

，其中是非退化的方阵(可逆，满秩)。

记，则有。

$A^{-1}=\begin{pmatrix} I&A_{11}^{-1}A_{12}\\ 0& I \end{pmatrix}\begin{pmatrix} A_{11}^{-1}&0\\ 0&A_{2|1}^{-1} \end{pmatrix}\begin{pmatrix} I&0\\ -A_{21}A_{11}^{-1}&I \end{pmatrix}$

记, 则有：

1.0.5 多元特征函数

(特征函数与概率分布函数一一对应)随机向量的特征函数为：

$\phi(t)=\phi(t_1,\dots,t_p)=E[e^{i(t_1X_1+\dots+t_pX_p)}]=E[e^{it'X}]$

其中, , 是虚数单位()

性质：

对正整数, 如果存在, 则
对, 分量的特征函数是.
记的边缘特征函数分别为, 记的特征函数是, 则相互独立的充分必要条件是：.
设维随机向量的特征函数分别为, 如果相互独立, 则随机向量和的特征函数为: .

Q:我个人感觉这个地方是不是写错了？Y怎么会是p维向量？那角标不应该是p吗？

A: 在这里，是独立的随机向量，每个依然是维的，所以是多个维向量

1.1 一元正态分布

【分布密度】若随机变量的概率密度函数为：

$p(x)=\frac{1}{\sqrt{2\pi}\sigma}\exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\}$

其中$-\infty0 $，则称随机变量服从正态分布。记为$ X\overset{d}{\sim}N(\mu,\sigma^2) $其中$ \mu $是均值$ \sigma^2$是方差。

1.2 多元正态分布

【分布密度】若元随机向量服从参数为的多元正态分布，其概率密度函数为：

$p(x)=(2\pi)^{-\frac p 2}|\Sigma|^{-\frac 1 2}\exp\left\{-\frac 1 2 (x-\mu)'\Sigma^{-1}(x-\mu)\right\}$

其中，为p阶正定矩阵，记为。

d 代表服从分布(distribution)，是多元正态分布的方差。

p元标准正态分布：

定理1：设p元随机向量, 其中为的行满秩矩阵，, 随机向量, 则, 其中.

证明：随机向量的特征函数定义为：
$\phi_X(t) = \mathbb{E} \left[ e^{i t^T X} \right]$
其中，是与同维度的向量。

代入到特征函数的定义中，得到：
$\phi_X(t) = \mathbb{E} \left[ e^{i t^T (\mu + A Y)} \right]= e^{i t^T \mu} \mathbb{E} \left[ e^{i t^T A Y} \right]$
由于是维标准正态随机向量，，其特征函数为：
$\phi_Y(t) = \mathbb{E} \left[ e^{i t^T Y} \right] = e^{-\frac{1}{2} t^T t}$
这里是与同维度的向量。
$\phi_X(t) = e^{i t^T \mu}\mathbb{E} \left[ e^{i t^T A Y} \right]= e^{i t^T \mu}e^{-\frac{1}{2} (A^T t)^T (A^T t)}\\ =e^{i t^T \mu}e^{-\frac{1}{2} t^T A A^T t}$
我们知道，一个维正态分布的特征函数为：
$\phi(t) = e^{i t^T \mu} e^{-\frac{1}{2} t^T \Sigma t}=e^{i t^T \mu}e^{-\frac{1}{2} t^T A A^T t}$
因此，服从分布，即：
$X \overset{d}{\sim} N_k(\mu, \Sigma)$
如何产生的(伪)随机数？—==Cholesky 分解==

生成的标准正态分布随机向量可以通过下列变换得到目标分布, L 是 Cholesky 分解得到的下三角矩阵，Z是标准正态随机向量。

1.2.2 性质

性质	说明:
1.密度函数	$p(x)=(2\pi)^{-\frac p 2}\	\Sigma\	^{-\frac 1 2}\exp\left\{-\frac 1 2 (x-\mu)’\Sigma^{-1}(x-\mu)\right\}$
2.特征函数
3.期望方差
4.线性变换
5.相互独立	设相互独立，, 则
6.卡方分布	, 则, 其中是自由度为p的卡方分布。
7.矩阵分解	,则
8.分量独立性	,则相互独立的充要条件是.
9.条件分布	$(X_1	X_2=x_2)\overset{d}{\sim}N_q(\mu_{1	2},\Sigma_{1	2}) $其中$ \mu_{1	2}=E(X_1	X_2=x_2)=\mu_1+\Sigma_{12}\Sigma_{22}^{-1}(x_2-\mu_2)\Sigma_{1	2}=Cov(X_1	X_2=x_2)=\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}(\Sigma_{1	2}\le\Sigma_{11})$
10.变量的独立分解	令;;则与相互独立，与相互独立，且$Y_1\overset{d}{\sim}N_q(\mu_1,\Sigma_{11}),Y_2\overset{d}{\sim}N_{p-q}(\mu_2-\Sigma_{21}\Sigma_{11}^{-1}\mu_1,\Sigma_{2	1})Z_2\overset{d}{\sim}N_{p-q}(\mu_2,\Sigma_{22}),Z_1\overset{d}{\sim}N_q(\mu_1-\Sigma_{12}\Sigma_{22}^{-1}\mu_2,\Sigma_{1\	2}(\Sigma_{2	1}=\Sigma_{22}-\Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12})$

1.3 相关系数

定义	说明
相关系数	与：
相关矩阵R
偏相关系数	, 则$(X_1^{(q)}\	X_2^{(p-q)})\overset{d}{\sim}N_q(\mu_{1	2},\Sigma_{1	2}) $在给定$ X_2^{(p-q)} $的条件下，$ X_i $与$ X_j $的条件相关系数$ \rho_{(ij)	(1	2)}=\frac{\sigma_{(ij)	(1	2)}}{\sqrt{\sigma_{(ii)	(1	2)}}\sqrt{\sigma_{(jj)	(1	2)}}}$
精度矩阵	设随机向量，有, 那么称为的精度矩阵。

偏相关系数是图模型和因果推断中的重要统计量，可以由特征函数+期望+方差，可以通过偏相关系数判别多元正态随机向量分量之间的条件独立性。

精度矩阵的性质：

若, 则, 其中, 设, 有如下分解：
在给定的条件下，与相互条件独立的充要条件是(是精度矩阵中的元素，表示在给定其他所有变量的条件下，和的关系的强度。)

证明：
$\begin{align} \Sigma_{12|3}&\overset{\text{定义}}{=}Cov((X_1,X_2)|X_3)\\ &\overset{\text{性质9}}{=}\begin{pmatrix}\Sigma_{11}& \Sigma_{12}\\\Sigma_{21}&\Sigma_{22}\end{pmatrix}-\begin{pmatrix}\Sigma_{13}\\\Sigma_{23}\end{pmatrix}\Sigma_{33}^{-1}\begin{pmatrix}\Sigma_{31}& \Sigma_{32}\end{pmatrix}\\ &\overset{\text{矩阵运算}}{=}\begin{pmatrix}\Sigma_{11}-\Sigma_{13}\Sigma_{33}^{-1}\Sigma_{31}&\Sigma_{12}-\Sigma_{13}\Sigma_{33}^{-1}\Sigma_{32}\\\Sigma_{21}-\Sigma_{23}\Sigma_{33}^{-1}\Sigma_{31}&\Sigma_{22}-\Sigma_{23}\Sigma_{33}^{-1}\Sigma_{32}\end{pmatrix}\\ &\overset{\text{分块矩阵运算}}{=}\begin{pmatrix}K_{11}&K_{12}\\K_{21}&K_{22}\end{pmatrix}^{-1} \end{align}$
由(分量独立性)：, 则相互独立的充要条件是.

则与条件独立的充要条件为,;则推广有.

无量纲：因为精度矩阵的数值与变量的量纲有关，所以进行标准化处理。令

,(将得到的C根据分块)。

在给定的条件下，与条件独立的充要条件.

1.3.1 练习

对于：

$\begin{align} \hat{E}(Y|X)&=\mu_Y+\Sigma_{YX}\Sigma_{XX}^{-1}(X-\mu_X)\\ &=95.423+\begin{pmatrix}56.689&176.381&-47.556&-190.9\end{pmatrix}\begin{pmatrix}31.941& 19.314& -28.663&-22.308\\ 19.314& 223.515& -12.811&-233.923\\ -28.663& -12.811& 37.87&2.923\\ -22.308& -233.923& 2.923& 258.615\end{pmatrix}^{-1}\begin{pmatrix}X_1-7.462\\X_2-48.154\\X_3-11.769\\X_4-30\end{pmatrix}\\ &=95.423+\begin{pmatrix}-2.06871& -2.83557 &-3.51512& -3.44172\end{pmatrix}\begin{pmatrix}X_1-7.462\\X_2-48.154\\X_3-11.769\\X_4-30\end{pmatrix}\\ &=95.423-2.069(X_1-7.462)-2.836(X_2-48.154)-3.515(X_3-11.769)-3.442(X_4-30) \end{align}$

预测：计算y关于的条件期望，从而用预测:

1.4 矩阵多元正态分布

1.4.0 矩阵拉直和Kronecker积

矩阵拉直：记 $是$ 的矩阵。矩阵拉直运算，是将矩阵按列拉直为向量

Kronecker积：令，A和B的Kronecker积记为：

令

令

的计算步骤如下：

拉直运算和Kronecker积的性质

性质	说明
1	对任意实数，有
2	，
3
4
5
6	若和都是非奇异的方阵，则
7	，
8	若和分别是和阶方阵，则
9	若、和分别是、和的矩阵，则。(如果我们对矩阵进行线性变换，那么其 “拉直” 形式（即按列展开）将受到 Kronecker积的影响。)

1.4.1 矩阵分布

设 i.i.d.(独立同分布, independent and identically distributed)，，即是来自元正态总体的独立样本。

记，则是一个的随机矩阵。

随机矩阵的期望：，其中。

矩阵的拉直运算：

随机矩阵的协方差阵：

随机矩阵的分布：随机矩阵拉直后的随机向量的分布。

矩阵的运算由于，有

$E(\text{vec}(X)) = \begin{pmatrix} \mu\\ \vdots\\ \mu \end{pmatrix}, \quad \text{Cov}(\text{vec}(X)) = \begin{pmatrix} \Sigma & 0 & \cdots & 0\\ 0 & \Sigma & \cdots & 0\\ \vdots & \vdots & \ddots & \vdots\\ 0 & 0 & \cdots & \Sigma \end{pmatrix}$

即，，其中是阶单位阵。

是因为独立同分布，所以它们的都是一样的。

随机矩阵拉直运算的性质(转置)

性质1：对的随机矩阵，若有

$E(\text{vec}(Y))=\alpha\otimes\beta, \text{Cov}(\text{vec}(Y)) = A\otimes B$

其中，分别是和维列向量，和分别是和阶方阵，则

$E(\text{vec}(Y'))=\beta\otimes\alpha, \text{Cov}(\text{vec}(Y')) = B\otimes A$

由性质1，对上述随机矩阵有

$E(\text{vec}(X'))=\mu\otimes 1_n, \text{Cov}(\text{vec}(X'))=\Sigma\otimes I_n$

因此，对由个维正态总体的独立样本组成的随机矩阵，，。

1.4.3 矩阵正态分布

矩阵正态分布是指矩阵的每一列或每一行都服从正态分布，且这些列或行之间可能具有某种协方差结构。

矩阵正态分布的一个重要特性是它的“拉直”形式也是正态分布。

假设矩阵是一个的矩阵，它的“拉直”（vectorization）形式也就是把矩阵按列展开成一个向量。如果这个向量服从正态分布，我们就说矩阵服从 矩阵正态分布。更具体地：

如果，我们说矩阵服从矩阵正态分布，记为：。

一般地，记的正态随机矩阵为，其中

$\begin{cases} B= E(X)=\mu\cdot 1_n'\\ \Sigma\otimes V=\text{Cov}(\text{vec}(X))=I_n\otimes\Sigma \end{cases}$

和分别是和阶方阵(正定阵)，分别控制着的行列之间的协方差结构。

从这个分布，可以得到的拉直形式服从以下正态分布：

$\text{vec}(X)\stackrel{d}{\sim}N_{np}(\text{vec}(B),\Sigma\otimes V)$

密度函数

矩阵正态分布的密度函数表示了矩阵出现某种特定值的概率。

若，其密度函数如下：

$\frac{1}{(2\pi)^{(np)/2}|V\otimes\Sigma|^{1/2}}\exp\left\{-\frac{1}{2}(\text{vec}(X - B))'(V\otimes\Sigma)^{-1}(\text{vec}(X - B))\right\}$

上式等价于（用迹的性质进行简化）：

$\frac{1}{(2\pi)^{(np)/2}|V|^{n/2}|\Sigma|^{p/2}}\exp\left\{-\frac{1}{2}\text{tr}[(X - B)'\Sigma^{-1}(X - B)V^{-1}]\right\}$

证明：(即证)

利用Kronecker积的一个重要性质：其中、和分别是、和的矩阵。
$\begin{align} 右式&=\text{tr} \left[ (X - B)' \Sigma^{-1} (X - B) V^{-1} \right]\\ &\overset{性质7}{=}\left(vec(X-B)\right)'\left(vec(\Sigma^{-1} (X - B) V^{-1})\right)\\ &\overset{性质9}{=}\left(vec(X-B)\right)'(\Sigma^{-1}\otimes V^{-1})vec(X-B)\\ &\overset{性质6}{=}\left(vec(X-B)\right)'(\Sigma\otimes V)^{-1}vec(X-B)\\ &=左式 \end{align}$

线性变换

如果矩阵服从正态分布，经过线性变换后，结果仍然服从矩阵正态分布，只是均值和协方差矩阵发生了变化。

性质2：设的矩阵服从矩阵正态分布。

对其进行线性变换其中和是常数矩阵。

则矩阵的分布将是：

$Y\stackrel{d}{\sim}N_{q\times m}((C + AB\Gamma), (\Gamma'V\Gamma)\otimes (A\Sigma A'))$

：这是矩阵的均值矩阵，表示了经过线性变换后的期望。

：这是矩阵的协方差矩阵，表示了变换后的行列协方差结构。

多元统计分析-Ch1 多元分布