Schwertlilien
As a recoder: notes and ideas.

多元统计分析-Ch2

【挑战20天学完多元统计分析,让我们说:DDL是最佳生产力!】

非常好矩阵分析,使我大脑旋转——

Ch2 由多元正态分布导出的分布

[TOC]

2.0 由一元正态分布导出的分布

应用: 1) 构造参数的置信区间; 2) 假设检验

2.0.1 卡方分布(对应Wishart分布)

,其中 i.i.d.(独立同分布),

则称随机变量为服从自由度为的卡方分布,记为 :

密度函数为:

期望方差:

2.0.2 t分布(对应分布)

假设随机变量相互独立,且, 则称随机变量为服从自由度为分布,记为:

密度函数:

2.0.3 F分布(对应Wilks分布)

假设随机变量$X$和$Y$相互独立,且$X\stackrel{d}{\sim}\chi^2(n)$,$Y\stackrel{d}{\sim}\chi^2(m)$, 则称随机变量$F=\frac{X/n}{Y/m}$为服从自由度为$n$和$m$的$F$分布,记为:

密度函数:

2.0.4 函数

此处主要是对函数的解释,下文还有在Wilks分布—Beta分布中提及。

Gamma 函数的定义为:

与阶乘函数关系:

  • 对于正整数 ,有:
  • 对于非整数的 :

性质:

性质 说明
递推 , 这个关系与阶乘的递推性质相似,因为
阶乘
对称性 函数的反射公式:
特殊值

2.1 Wishart分布

2.1.1 定义

设随机向量,其中 i.i.d.(独立同分布),每个都遵循一个多维正态分布

阶Wishart分布:称阶随机矩阵的分布为阶Wishart分布,记为 , 其中称为其自由度

【矩阵正态分布与Wishart分布】Wishart分布实际上是矩阵正态分布的一个特殊情况。

当你通过独立的正态随机向量生成矩阵后,矩阵 就是 Wishart分布的实例。

Wishart分布: 是矩阵与其转置 的乘积,意味着 都是矩阵正态分布,

2.1.2 密度函数

时,阶Wishart分布有密度函数:

若记,并称之为函数,则有

时,Wishart分布退化成分布(一元正态分布导出)。

将Wishart分布转化为随机向量的分布

对称 (),因此可以把W的分布展开成一个由的元素组成的随机向量的分布。(按每行的向量拉直)

对前提条件的说明:要求自由度是为确保(W正定)必成立。

  • 当自由度 时,矩阵 的列数不足以提供足够的信息来使得 为正定矩阵。外积矩阵 可能会退化(奇异),导致它不是正定的(即存在零特征值)
  • (自由度 至少为矩阵维度 )矩阵 具有足够的列,才能确保矩阵 正定矩阵

Q: 为什么W一定要是正定的?

A: 的形式确保了是对称的, 但是对称与正定并不等价。正定要需要其主对角元素是大于0的。

因为的列(n个)是独立同分布的,一定满秩:

Ps: 联想到Cholesky分解:LU+对称=正定. A symmetric matrix A possessing an LU factorization in which each pivot is positive is said to be positive definite.

何时矩阵存在LU分解?

  • 将A通过基本初等变换转化为上三角矩阵U的过程中不能出现主元=0的情况。
  • 每个主子矩阵都是非奇异的。

2.1.3 分布性质

简要说明 性质
1.分布期望 ,则
2.线性变换 阶矩阵,则
3.特征函数 ,则 特征函数为 $$E(e^{itr(TW)}) = I_p - 2i\Sigma T ^{-n/2}$$ , 其中 阶实对称阵
4.可加性 相互独立,,则
5.矩阵二次型 【详细见下】若 为幂等矩阵,则矩阵二次型 , 其中,
6.独立分解 【详细见下】 设 。 将 作如下相同的 阶和 阶矩阵分块:
7.行列式 。则 $$ W \stackrel{d}{=} \Sigma \prod_{i = 1}^{p} \gamma_i,$$ 其中, 相互独立,
8.逆矩阵期望 ,则
9.逆矩阵分布 , 则对任意非零的 维向量 ,都有
10.Bartlett分解 。将 作分解 是对角元为正的下三角矩阵。 令 ,则 相互独立,且 , 成立。

Bartlett 分解: 将分解成, 这个下三角矩阵 的对角线元素的平方服从卡方分布,非对角线元素服从标准正态分布,并且这些元素是相互独立的。

Q: Bartlett分解和Cholesky分解有什么关系?

A: 形式上相似,用处不同。

  • 相似:两者都涉及将矩阵分解为下三角矩阵与其转置的乘积。

    在 Bartlett 分解和 Cholesky 分解中,都有一个下三角矩阵 ,并且分解形式是

  • 不同:

    • 应用背景不同:Cholesky 分解用于任意对称正定矩阵,而 Bartlett 分解用于威尔奇分布(Wishart 分布)矩阵,特别是当协方差矩阵是单位矩阵时。Bartlett 分解涉及威尔奇分布的统计性质,如卡方分布和正态分布的关系。
    • 元素的分布不同:在 Bartlett 分解中, 的元素有特定的概率分布(如 ),这些元素是相互独立的,而在 Cholesky 分解中, 的元素是通过递归计算的,并没有类似的概率分布性质。
    • 独立性:Bartlett 分解中的 的元素是相互独立的,而 Cholesky 分解中 的元素之间是有依赖关系的。

性质5:矩阵二次型

首先介绍一下 二次型、矩阵二次型是个什么,我们再谈Wishart分布与矩阵二次型之间的关联。

二次型

image-20241202163338879

因为二次型是一个数值,所以转置就等于自身。

上式说明必是对称的

矩阵二次型:若随机矩阵 ,或 ,则称 为矩阵二次型,其中 阶对称方阵,(表示是半正定的)。

,其中 i.i.d.,,则

特别地,当 时,

随机矩阵 ,矩阵二次型.

  1. 为幂等矩阵(投影),则矩阵二次型 , 其中,

    (5.9.13) Projectors and Idempotents

    A linear operator P on V is a projector if and only if .

    证明: 对称+幂等=正交投影,通过构造来证明这个二次型服从自由度为n的Wishart分布。

    image-20241202161549153

    image-20241202162418298

    幂等+对称,所以是正交投影算子。

    (5.13.5)存在正交阵 ,使得 ,其中 . 下面考虑矩阵正态分布的正交变换 的分布。

    矩阵拉直的性质9:对矩阵 ,有

    期望:U是标准正交阵、不改变X的长度,只改变方向:

    方差:

    因此有 。 令 ,可知 是独立同分布的 维正态随机向量,均值为0,协方差为

    进而有,

    得证。

  2. 都是幂等矩阵。 若 ,则 , 其中,,且 相互独立。

  3. 为幂等矩阵。 则 独立的充要条件为 ,其中 的矩阵。

    证明:(个人推导,可能有误)

    表示矩阵 中的列向量必须全部位于 的零空间中,也就是说,矩阵 中的所有列向量与 所投影的子空间是正交的。

    因为

    因为, 是对称的,所以可以得到.

    绷,感觉是个死循环,没法推。

性质6: 独立分解

。 将 作如下相同的 阶和 阶矩阵分块

上方是我从矩阵分析中找出的分块矩阵的分解,感觉和下面的性质比较相关。则有:

  • (独立性) 相互独立;
  • (条件分布)
  • (矩阵分布)
  • (条件下的分布)在 给定的条件下,

特别地,当 时,有 :

  • 相互独立;

2.2 Hotelling 分布

Hotelling 统计量是一个“无量纲”统计量,在进行假设检验时不需要显式地估计协方差矩阵 ,因为它已经被标准化为与 无关的形式。

2.2.1 定义

Hotelling 分布:设,且相互独立。记为.

特别地,当时,Hotelling 分布退化为一维正态分布情况中的分布的平方:(分布的变量的平方服从第一自由度为1,第二自由度为n的F分布)

假设: (将替换、替换)

通过标准化变换,发现

所以Hotelling 分布与协方差矩阵无关,仅依赖于样本数量n和维度p,记为.

2.2.2 分布性质

性质 说明
1.相互独立 ,其中分子分母相互独立
2.与F分布
3.密度函数 的密度函数为

2.2.3 非中心的Hotelling 分布

Q:自由度是什么?

A:自由度通常代表可以自由选择或独立变化的数值的数量。假设你有一个样本数据集

如果你知 个数据点,并且要求样本的均值为某一特定值(比如 0),那么最后一个数据点是由其他 个数据点决定的。因此,这样的数据集的自由度是,因为只有 个数据点可以自由变化。

Q:两个自由度?

A:对于一些非中心分布,比如分布,通常有两个参数(注意不是自由度)。

  • 第一个自由度:与 数据的维度分子部分的卡方分布 相关,反映了数据的变化度、模型拟合的效果或者均值的偏离。
  • 第二个自由度:与 误差的自由度分母部分的卡方分布 相关,通常与样本大小、样本误差和模型的复杂度有关。(如果是基于样本方差的估计,需要-1:在计算样本的方差时,样本的均值是一个参数,因此计算样本方差时,只有 个数据点是自由变化的。)
  • 非中心参数:不是自由度,而是参数,反映了样本均值的偏离程度,即数据的“非中心性”。

定义:设,且相互独立。

的分布为非中心的Hotelling分布,记为,其中是非中心参数。

性质:

1)
2)

2.3 Wilks分布

2.3.1 定义

定义:假设相互独立。记 则称的分布为Wilks分布,记为

由于:

故Wilks分布无关。

F分布与Beta分布的关系

Q: Beta分布?

A: 二项分布可以看做是多次重复进行伯努利实验所得到的分布。在多次重复进行二项分布的实验中,我们想要知道p的所有可能取值的概率,这就是一个Beta分布

  • 的概率密度函数(PDF)为:

其中, 是 Beta 函数,是一个归一化常数,确保积分为 1。

Beta分布由两个参数 控制,这两个参数通常被称为 形状参数。Beta 分布广泛应用于统计学中,尤其是在贝叶斯统计和比例数据建模中。

  • 时,Beta 分布就是均匀分布。
  • 时,分布倾向于 1(右偏)。
  • 时,分布倾向于 0(左偏)。

给定随机变量,服从F分布(其中n, m 分别是分子的自由度和坟墓的自由度)。F 分布的性质之一是,它可以与 Beta 分布建立联系。

  1. 其中是自由度为分布。

2.3.2 分布性质

性质 说明
1 ,其中, 相互独立, 因此它是分布的推广,而不是分布的直接推广
2
3与F分布的关系

2.4 总结

Wishart分布 Hotelling 分布 Wilks分布
1维下 分布 t分布平方 Beta分布
2 正态随机向量特殊二次型的分布 常用于检验统计量的分布 常用于似然比检验统计量的分布
3 样本离差阵是最常见的服从Wishart分布的随机矩阵 计算需转化为F分布 计算在很多情况下可以转化为F分布

Q: 样本离差阵是什么

A: 样本离差阵后续会介绍。

的数据矩阵,

注意是.

2.4.1 作业

阶常数方阵,试求

根据性质7:设 。则 其中, 相互独立,

对于,其期望是

所以期望式子可以写成:

找另外一个同学对了对答案,我这么写没什么问题,但是gpt每次都给我不同的答案,逆天。

搜索
匹配结果数:
未搜索到匹配的文章。