【挑战20天学完多元统计分析，让我们说：DDL是最佳生产力！】

非常好矩阵分析，使我大脑旋转——

Ch2 由多元正态分布导出的分布

[TOC]

2.0 由一元正态分布导出的分布

应用： 1) 构造参数的置信区间； 2) 假设检验

2.0.1 卡方分布(对应Wishart分布)

设，其中 i.i.d.(独立同分布)，，。

则称随机变量为服从自由度为的卡方分布，记为：

$Y=\sum_{i = 1}^{n}x_i^2\stackrel{d}{\sim}\chi^2(n)$

密度函数为：

$g_n(x)=\begin{cases}\frac{x^{\frac{n-2}{2}}e^{-\frac{x}{2}}}{2^{\frac n 2}\Gamma(\frac n 2)}, &\quad x>0\\ 0, &\quad x\le0 \end{cases}$

期望方差：

$X\sim\chi^2(n)\\E(X)=n,Cov(X)=2n$

2.0.2 t分布(对应分布)

假设随机变量和相互独立，且，，则称随机变量为服从自由度为的分布，记为：

$t = \frac{X}{\sqrt{\frac Y n}}\stackrel{d}{\sim}t(n)$

密度函数：

$t_n(x)=\frac{\Gamma\left(\frac{n + 1}{2}\right)}{\Gamma\left(\frac{n}{2}\right)\sqrt{n\pi}}\left(1+\frac{x^2}{n}\right)^{-\frac{n + 1}{2}}, \quad -\infty<x<\infty$

2.0.3 F分布(对应Wilks分布)

假设随机变量$X$和$Y$相互独立，且$X\stackrel{d}{\sim}\chi^2(n)$，$Y\stackrel{d}{\sim}\chi^2(m)$，则称随机变量$F=\frac{X/n}{Y/m}$为服从自由度为$n$和$m$的$F$分布，记为:

$F = \frac{\frac X n}{\frac Y m}\stackrel{d}{\sim}F(n,m).$

密度函数：

$f_{m,n}(x) = \begin{cases} \frac{\Gamma(\frac{m + n}{2})}{\Gamma(\frac{m}{2})\Gamma(\frac{n}{2})} m^{\frac{m}{2}} n^{\frac{n}{2}} x^{\frac{m}{2}-1}(n + mx)^{-\frac{m + n}{2}}, x > 0 \\ 0, \text{其它} \end{cases}$

2.0.4 函数

此处主要是对函数的解释，下文还有在Wilks分布—Beta分布中提及。

Gamma 函数的定义为：

$\Gamma(x) = \int_0^\infty t^{x-1} e^{-t} \, dt, \quad \text{对于} \ x > 0$

与阶乘函数关系:

对于正整数，有：
对于非整数的 :

性质:

性质	说明
递推	$对于$ , 这个关系与阶乘的递推性质相似，因为。
阶乘	$对于正整数$
对称性	函数的反射公式：
特殊值

2.1 Wishart分布

2.1.1 定义

设随机向量，其中 i.i.d.(独立同分布)，每个都遵循一个多维正态分布，。

阶Wishart分布：称阶随机矩阵的分布为阶Wishart分布，记为 , 其中称为其自由度。

【矩阵正态分布与Wishart分布】Wishart分布实际上是矩阵正态分布的一个特殊情况。

当你通过独立的正态随机向量生成矩阵后，矩阵就是 Wishart分布的实例。

Wishart分布: 是矩阵与其转置的乘积，意味着和都是矩阵正态分布,

2.1.2 密度函数

当，时，阶Wishart分布有密度函数:

$f_p(W)=\frac{|W|^{\frac{(n - p - 1)}2}\exp\left\{-\frac{1}{2}\text{tr}(\Sigma^{-1}W)\right\}}{2^{\frac{np}2}|\Sigma|^{\frac n 2}\pi^{\frac{p(p - 1)}{4}}\prod_{i = 1}^{p}\Gamma\left(\frac{n - i + 1}{2}\right)}, \quad W>0$

若记，并称之为维函数，则有

$f_p(W)=\frac{|W|^{\frac{(n - p - 1)}2}\exp\left\{-\frac{1}{2}\text{tr}(\Sigma^{-1}W)\right\}}{2^{\frac{np}2}\Gamma_p\left(\frac{n}{2}\right)|\Sigma|^{\frac n2}}, \quad W>0.$

当时，Wishart分布退化成分布（一元正态分布导出）。

即。

将Wishart分布转化为随机向量的分布：

对称 ()，因此可以把W的分布展开成一个由的元素组成的随机向量的分布。(按每行的向量拉直)
$W=\begin{pmatrix} w_{11}&w_{12}&\ldots&w_{1p}\\ w_{21}&w_{22}&\ldots&w_{2p}\\ \vdots&\vdots&\ddots&\vdots\\ w_{p1}&w_{p2}&\ldots&w_{pp}\\ \end{pmatrix}=\begin{pmatrix} w_{1*}\\w_{2*}\\\vdots\\w_{p*} \end{pmatrix}\overset{d}\sim\begin{pmatrix} w_{1*}'\\w_{2*}'\\\vdots\\w_{p*}' \end{pmatrix}$

对前提条件的说明：要求自由度是为确保(W正定)必成立。

当自由度时，矩阵的列数不足以提供足够的信息来使得为正定矩阵。外积矩阵可能会退化（奇异），导致它不是正定的（即存在零特征值）
当（自由度至少为矩阵维度）矩阵具有足够的列，才能确保矩阵是 正定矩阵。

Q: 为什么W一定要是正定的？

A: 的形式确保了是对称的, 但是对称与正定并不等价。正定要需要其主对角元素是大于0的。

因为的列(n个)是独立同分布的，一定满秩：

Ps: 联想到Cholesky分解：LU+对称=正定. A symmetric matrix A possessing an LU factorization in which each pivot is positive is said to be positive definite.

何时矩阵存在LU分解？

将A通过基本初等变换转化为上三角矩阵U的过程中不能出现主元=0的情况。

每个主子矩阵都是非奇异的。

2.1.3 分布性质

简要说明	性质
1.分布期望	若，则
2.线性变换	若，是阶矩阵，则
3.特征函数	若，则特征函数为 $$E(e^{itr(TW)}) =	I_p - 2i\Sigma T	^{-n/2}$$ , 其中为阶实对称阵
4.可加性	若相互独立，，，则 $\sum_{i = 1}^{k} W_i \stackrel{d}{\sim} W_p(\sum_{i = 1}^{k} n_i,\Sigma)$
5.矩阵二次型	【详细见下】若为幂等矩阵，则矩阵二次型，其中，。
6.独立分解	【详细见下】设，，。将和作如下相同的阶和阶矩阵分块:
7.行列式	设，，。则 $$	W	\stackrel{d}{=}	\Sigma	\prod_{i = 1}^{p} \gamma_i,$$ 其中，相互独立，，
8.逆矩阵期望	若，，，则
9.逆矩阵分布	设，，，则对任意非零的维向量，都有
10.Bartlett分解	设，。将作分解，是对角元为正的下三角矩阵。令，则相互独立，且 , 对成立。

Bartlett 分解: 将分解成, 这个下三角矩阵的对角线元素的平方服从卡方分布，非对角线元素服从标准正态分布，并且这些元素是相互独立的。

Q: Bartlett分解和Cholesky分解有什么关系？

A: 形式上相似，用处不同。

相似：两者都涉及将矩阵分解为下三角矩阵与其转置的乘积。

在 Bartlett 分解和 Cholesky 分解中，都有一个下三角矩阵或，并且分解形式是或。

不同：

应用背景不同：Cholesky 分解用于任意对称正定矩阵，而 Bartlett 分解用于威尔奇分布（Wishart 分布）矩阵，特别是当协方差矩阵是单位矩阵时。Bartlett 分解涉及威尔奇分布的统计性质，如卡方分布和正态分布的关系。

元素的分布不同：在 Bartlett 分解中，的元素有特定的概率分布（如和），这些元素是相互独立的，而在 Cholesky 分解中，的元素是通过递归计算的，并没有类似的概率分布性质。

独立性：Bartlett 分解中的的元素是相互独立的，而 Cholesky 分解中的元素之间是有依赖关系的。

性质5：矩阵二次型

首先介绍一下二次型、矩阵二次型是个什么，我们再谈Wishart分布与矩阵二次型之间的关联。

二次型：

因为二次型是一个数值，所以转置就等于自身。
$f(x)=\frac{f(X)+f(X)^T}2=\frac{X^TA^TX+X^TA^TX}2=X^T(\frac{A^T+A}{2})X=X^TAX\\ \frac{A^T+A}{2}=A$
上式说明必是对称的。

矩阵二次型：若随机矩阵，或，则称为矩阵二次型，其中是阶对称方阵，(表示是半正定的)。

若，其中 i.i.d.，，，，则
$Q = XAX'=\sum_{i = 1}^{n} \sum_{j = 1}^{n} a_{ij}X_iX_j'$
特别地，当时，。

随机矩阵，矩阵二次型.

若为幂等矩阵(投影)，则矩阵二次型，其中，

(5.9.13) Projectors and Idempotents

A linear operator P on V is a projector if and only if .

证明：对称+幂等=正交投影,通过构造来证明这个二次型服从自由度为n的Wishart分布。

由幂等+对称，所以是正交投影算子。

(5.13.5)存在正交阵，使得，其中 . 下面考虑矩阵正态分布的正交变换的分布。

矩阵拉直的性质9：对矩阵，有 $\text{vec}(CZD)=(D'\otimes C)\text{vec}(Z).$

期望：U是标准正交阵、不改变X的长度，只改变方向:

方差：
$\begin{align*} \text{Cov}[\text{vec}(Y)]&=\text{Cov}[\text{vec}(XU)]=\text{Cov}[\text{vec}(I_pXU)]\\ &=\text{Cov}[(U'\otimes I_p)\text{vec}(X)]\\ &=(U'\otimes I_p)\text{Cov}[\text{vec}(X)](U\otimes I_p)\\ &=(U'\otimes I_p)(I_n\otimes\Sigma)(U\otimes I_p)\\ &=(U'I_nU)\otimes(I_p\Sigma I_p)\\ &=I_n\otimes\Sigma. \end{align*}$
因此有。令，可知是独立同分布的维正态随机向量，均值为0，协方差为。

进而有，
$Q = XAX' = XU\begin{pmatrix} I_m & 0 \\ 0 & 0 \end{pmatrix}U'X' = Y\begin{pmatrix} I_m & 0 \\ 0 & 0 \end{pmatrix}Y'=\sum_{i = 1}^{m} Y_iY_i' \\ Q\stackrel{d}{\sim} W_p(m,\Sigma)$
得证。
设，，和都是幂等矩阵。若，则，其中，，，且与相互独立。
设，为幂等矩阵。则与独立的充要条件为，其中是的矩阵。

证明：(个人推导，可能有误)

表示矩阵中的列向量必须全部位于的零空间中，也就是说，矩阵中的所有列向量与所投影的子空间是正交的。
$\begin{align} \text{Cov}(P'X', X A X') &=\text{Cov}(P'X', Q) \\ &= \mathbb{E}[(P'X' - \mathbb{E}[P'X'])(XAX' - \mathbb{E}[XAX'])]\\ &=E[P' X' X A X']-E[P'X']E[XAX']\\ &=0 \end{align}$
因为 $，$
$\begin{align} E[P' X' X A X']&=0\\ &=E[P'X']E[XAX']\\ &=P'E[X']E[X]AE[X']\\ P'A&=0 \end{align}$
因为, 是对称的，所以可以得到.

绷，感觉是个死循环，没法推。

性质6: 独立分解

设，，。将和作如下相同的阶和阶矩阵分块

$W = \begin{pmatrix} W_{11} & W_{12} \\ W_{21} & W_{22} \end{pmatrix}=\begin{pmatrix} I&0\\W_{21}W_{11}^{-1}&I \end{pmatrix}\begin{pmatrix} W_{11}&W_{12}\\ 0&W_{22}-W_{21}W_{11}^{-1}W_{12} \end{pmatrix}$

上方是我从矩阵分析中找出的分块矩阵的分解，感觉和下面的性质比较相关。则有：

(独立性) 与相互独立；
(条件分布)；
(矩阵分布)；
(条件下的分布)在给定的条件下， $W_{21}W_{11}^{-\frac 12} \stackrel{d}{\sim} N_{(p - q)\times q}(\Sigma_{21}\Sigma_{11}^{-\frac 12}W_{11}^{\frac 12}, I_q \otimes \Sigma_{2|1}).$

特别地，当时，有：

，与相互独立；
；
；
。

2.2 Hotelling 分布

Hotelling 统计量是一个“无量纲”统计量，在进行假设检验时不需要显式地估计协方差矩阵，因为它已经被标准化为与无关的形式。

2.2.1 定义

Hotelling 分布：设，且和相互独立。记为.

特别地，当时，Hotelling 分布退化为一维正态分布情况中的分布的平方：(分布的变量的平方服从第一自由度为1，第二自由度为n的F分布)

$1D:t = \frac{X}{\sqrt{\frac Y n}}\stackrel{d}{\sim}t(n)$

假设: (将用替换、用替换)

$\begin{align} T^2&=nX'W^{-1}X\\ &=n(\Sigma^{-\frac 1 2}X)'(\Sigma^{-\frac 1 2}W\Sigma^{-\frac 1 2})^{-1}(\Sigma^{-\frac 1 2}X) \end{align}$

通过标准化变换，发现。

所以Hotelling 分布与协方差矩阵无关，仅依赖于样本数量n和维度p，记为.

2.2.2 分布性质

性质	说明
1.相互独立	,其中分子分母相互独立
2.与F分布
3.密度函数	的密度函数为

2.2.3 非中心的Hotelling 分布

Q：自由度是什么？

A：自由度通常代表可以自由选择或独立变化的数值的数量。假设你有一个样本数据集。

如果你知个数据点，并且要求样本的均值为某一特定值（比如 0），那么最后一个数据点是由其他个数据点决定的。因此，这样的数据集的自由度是，因为只有个数据点可以自由变化。

Q：两个自由度？

A：对于一些非中心分布，比如、分布，通常有两个参数（注意不是自由度）。

第一个自由度：与 数据的维度 或 分子部分的卡方分布 相关，反映了数据的变化度、模型拟合的效果或者均值的偏离。

第二个自由度：与 误差的自由度 或 分母部分的卡方分布 相关，通常与样本大小、样本误差和模型的复杂度有关。（如果是基于样本方差的估计，需要-1：在计算样本的方差时，样本的均值是一个参数，因此计算样本方差时，只有个数据点是自由变化的。）

非中心参数：不是自由度，而是参数，反映了样本均值的偏离程度，即数据的“非中心性”。

定义：设，，且和相互独立。

则的分布为非中心的Hotelling分布，记为，其中是非中心参数。

性质：

1)
2)

2.3 Wilks分布

2.3.1 定义

定义：假设，，，，和相互独立。记则称的分布为Wilks分布，记为。

由于:
$\Lambda=\frac{|\Sigma^{-1/2}W_1\Sigma^{-1/2}|}{|\Sigma^{-1/2}W_1\Sigma^{-1/2}+\Sigma^{-1/2}W_2\Sigma^{-1/2}|},\\\begin{cases} \Sigma^{-1/2}W_1\Sigma^{-1/2} \stackrel{d}{\sim} W_p(n, I_p) \\ \Sigma^{-1/2}W_2\Sigma^{-1/2} \stackrel{d}{\sim} W_p(m, I_p)\end{cases}$
故Wilks分布与无关。

F分布与Beta分布的关系：

Q: Beta分布？

A: 二项分布可以看做是多次重复进行伯努利实验所得到的分布。在多次重复进行二项分布的实验中，我们想要知道p的所有可能取值的概率，这就是一个Beta分布。

的概率密度函数（PDF）为：

$f(x;\alpha, \beta) = \frac{x^{\alpha-1} (1-x)^{\beta-1}}{B(\alpha, \beta)}, \quad 0 \leq x \leq 1$
其中，是 Beta 函数，是一个归一化常数，确保积分为 1。
$\Gamma(x)=\int^{+\infty}_0 t^{x-1}e^{-t}dt\\ B(\alpha,\beta)=\frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}=\int^1_0 t^{\alpha-1}(1-t)^{\beta-1}dt$
Beta分布由两个参数和控制，这两个参数通常被称为 形状参数。Beta 分布广泛应用于统计学中，尤其是在贝叶斯统计和比例数据建模中。

当时，Beta 分布就是均匀分布。

当时，分布倾向于 1（右偏）。

当时，分布倾向于 0（左偏）。

给定随机变量，服从F分布(其中n, m 分别是分子的自由度和坟墓的自由度)。F 分布的性质之一是，它可以与 Beta 分布建立联系。

$\frac{\frac{n}{m}F(n,m)}{1+\frac{n}{m}F(n,m)}\stackrel{d}{=}B\left(\frac{n}{2},\frac{m}{2}\right),$ 其中是自由度为的分布。
$\frac{1 - B\left(\frac{m}{2},\frac{n}{2}\right)}{B\left(\frac{m}{2},\frac{n}{2}\right)}\cdot\frac{m}{n}\stackrel{d}{=}F(n,m).$

2.3.2 分布性质

性质	说明
1	，其中，相互独立，因此它是时分布的推广，而不是分布的直接推广
2
3与F分布的关系

2.4 总结

	Wishart分布	Hotelling 分布	Wilks分布
1维下	分布	t分布平方	Beta分布
2	正态随机向量特殊二次型的分布	常用于检验统计量的分布	常用于似然比检验统计量的分布
3	样本离差阵是最常见的服从Wishart分布的随机矩阵	计算需转化为F分布	计算在很多情况下可以转化为F分布

Q: 样本离差阵是什么？

A: 样本离差阵后续会介绍。

设为的数据矩阵，
$\bar{X}=\frac 1 nX'1_n\\ A=X'X-n\bar X\bar X'=X'(I_n-\frac 1 n 1_n1_n')X$
注意是.

2.4.1 作业

若，。是阶常数方阵，试求。

$E(|AW|)=|A|E(|W|)$

根据性质7：设，，。则 $|W|\stackrel{d}{=} |\Sigma|\prod_{i = 1}^{p} \gamma_i,$ 其中，相互独立，，

$|A|E(|W|)=|A|E(|\Sigma|\prod_{i = 1}^{p} \gamma_i)\\ =|A||\Sigma|\prod_{i = 1}^{p}E(\gamma_i)$

对于,其期望是

所以期望式子可以写成：

$|A||\Sigma|\prod_{i=1}^{p}E(\gamma_i)\\ =|A||\Sigma|\prod_{i=1}^{p}(n-i+1)$

找另外一个同学对了对答案，我这么写没什么问题，但是gpt每次都给我不同的答案，逆天。

多元统计分析-Ch2