期末复习-上

[TOC]

知识复习

Ch1 多元分布

不考的

特征函数

分块矩阵

偏相关系数、精度矩阵

矩阵拉直、Kronecker积、矩阵分布

1.1 矩阵知识

$Cov(AX)=ACov(X)A'\\ Cov(AX,BY)=ACov(X,Y)B'$

出送分题，计算二维协方差矩阵，对角线是方差，非对角线是协方差.

1.2 多元正态分布

似然=密度。会算似然比、极大似然估计。

1.2.1 密度函数

若元随机向量服从参数为的多元正态分布，其概率密度函数为：

$p(x)=(2\pi)^{-\frac p 2}|\Sigma|^{-\frac 1 2}\exp\left\{-\frac 1 2 (x-\mu)'\Sigma^{-1}(x-\mu)\right\}$

其中，为p阶正定矩阵，记为。

1.2.2 线性变换(基本)

定理1：设p元随机向量, 其中为的行满秩矩阵，, 随机向量, 则, 其中.

p元标准正态分布：

性质

给出的基本都要考。

性质	说明:
密度函数	$p(x)=(2\pi)^{-\frac p 2}\	\Sigma\	^{-\frac 1 2}\exp\left\{-\frac 1 2 (x-\mu)’\Sigma^{-1}(x-\mu)\right\}$
期望方差
线性变换
相互独立	设相互独立，, 则
卡方分布	, 则, 其中是自由度为p的卡方分布。
边缘分布	,则
分量独立性	,则相互独立的充要条件是.
条件分布	$(X_1	X_2=x_2)\overset{d}{\sim}N_q(\mu_{1	2},\Sigma_{1	2}) $其中$ \mu_{1	2}=E(X_1	X_2=x_2)=\mu_1+\Sigma_{12}\Sigma_{22}^{-1}(x_2-\mu_2)\Sigma_{1	2}=Cov(X_1	X_2=x_2)=\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}(\Sigma_{1	2}\le\Sigma_{11})$

条件分布考：给出公式计算即可。

1.3 相关系数

计算相关系数，定义知道即可。

$p_{ij}=\frac{Cov(X_i,X_j)}{\sqrt{Var(X_i)}\sqrt{Var(X_j)}}=\frac{\sigma_{ij}}{\sqrt{\sigma_{ii}}\sqrt{\sigma_{jj}}}$

Ch2 由多元正态分布导出的分布

不考的：

Wishart密度函数、部分性质

非中心的Hotelling 分布

Wilks分布

2.1 Wishart分布

考一个Wishart分布小性质。

设随机向量，其中 i.i.d.(独立同分布)，每个都遵循一个多维正态分布，。

阶Wishart分布：称阶随机矩阵的分布为阶Wishart分布，记为 , 其中称为其自由度。

2.1.1 性质

简要说明	性质
1.分布期望	若，则
2.线性变换	若，是阶矩阵，则

似考非考

2.2 Hotelling 分布

Hotelling 分布：设，且和相互独立。记为.

得到的是数。注意的协方差矩阵相同且独立。

进行置信检验使用F分布而不是.因为本身就能化成F分布。

Ch3 多元正态分布的估计与检验

不考的：

极大似然估计中的正交分解

样本相关系数的精确分布和渐进分布

的假设检验

渐进分布的区间估计(渐进正态性)、方差齐性变换

正态总体均值的Bayes估计

多元BF问题

多元方差分析

独立性检验（很重要，但是不考）、条件独立性检验

多重比较

3.1 多元正态分布样本统计量

设为来自多元正态总体的独立样本，其中，，。记:

metric	公式	说明
样本均值		无偏估计，即。
样本离差阵		衡量了样本点相对于样本均值的离散程度。
样本协方差阵		对离差阵进行归一化

事实：是的完全充分统计量, 这意味着和包含了样本中关于总体参数和的所有信息。

3.1.1 (, ) 的分布性质

；
；
与相互独立。

证明：

（1）记，则有，。

令为阶正交矩阵，其中:
$U_1 = \left( \frac{1}{\sqrt{n}}, \frac{1}{\sqrt{n}}, \cdots, \frac{1}{\sqrt{n}} \right)' = \frac{1}{\sqrt{n}} \mathbf{1}_n\\ 1_n'U_j=\sqrt{n}(\frac 1 {\sqrt{n}}1_n)'U_j=\sqrt{n}U_iU_j=0$
的第一列被特别选择为与样本均值方向相关的向量。令记为，则代表了样本均值方向上的信息, 则代表了与样本均值正交的剩余信息。
$E(Y) = E(X)U = \mu \mathbf{1}_n'U = \mu \mathbf{1}_n'\left( \frac{1}{\sqrt{n}} \mathbf{1}_n, U_2, \cdots, U_n \right) = (\sqrt{n} \mu, 0, \cdots, 0)\\ \begin{align*} \text{Cov}(\text{vec}(Y))&=\text{Cov}(\text{vec}(I_p XU))\\ &=\text{Cov}((U' \otimes I_p)\text{vec}(X))\\ &=(U' \otimes I_p)\text{Cov}(\text{vec}(X))(U \otimes I_p)\\ &=(U' \otimes I_p)(I_n \otimes \Sigma)(U \otimes I_p)\\ &=I_n \otimes \Sigma \end{align*}$
从上面的可以得到：相互独立，且，。因而有，即(1)成立。

（2）由于，即，因而有
$\begin{align*} V&=\sum_{i = 1}^{n}X_iX_i'-n\bar{X}\bar{X}'\\ &=\sum_{i = 1}^{n}X_iX_i'-Y_1Y_1'\\ &=\sum_{i = 1}^{n}Y_iY_i'-Y_1Y_1'\\ &=\sum_{i = 2}^{n}Y_iY_i'\sim W_p(n - 1,\Sigma)\end{align*}$
所以(2)成立。又由于，，因此与独立，即(3)成立。

3.2 多元正态分布的参数估计

密度函数给出，根据密度函数写似然。

3.2.1 极大似然估计

观测样本的联合密度：

$f(X)=(2\pi)^{-\frac{n p}{2}}|\Sigma|^{-\frac{n}{2}}\exp\left\{-\frac{1}{2}\text{tr}\Sigma^{-1}(V + n(\bar{X}-\mu)(\bar{X}-\mu)')\right\}$

首先求的极大似然估计:

$\begin{align} f(X)&=(2\pi)^{-\frac{n p}{2}}|\Sigma|^{-\frac{n}{2}}\exp\left\{-\frac{1}{2}\text{tr}\Sigma^{-1}(V + n(\bar{X}-\mu)(\bar{X}-\mu)')\right\}\\ &=(2\pi)^{-\frac{n p}{2}}|\Sigma|^{-\frac{n}{2}}\exp\left\{-\frac{1}{2}\text{tr}\Sigma^{-1}V-\frac{n}{2}\text{tr}\Sigma^{-1}(\bar{X}-\mu)(\bar{X}-\mu)'\right\}\\ &=(2\pi)^{-\frac{n p}{2}}|\Sigma|^{-\frac{n}{2}}\exp\left\{-\frac{1}{2}\text{tr}\Sigma^{-1}V-\frac{n}{2}(\bar{X}-\mu)'\Sigma^{-1}(\bar{X}-\mu)\right\} \end{align}$

易知的极大似然估计为：。即正态总体均值的极大似然估计是样本均值。

3.2.2 样本相关系数

样本相关系数是总体相关系数的估计，与其差距有多大，使用分布刻画。

知道样本相关系数可以检验X和Y独立，不考。

记为正态总体的相关系数矩阵，并记，，则的极大似然估计为:

$\hat{\rho}_{ij}=r_{ij}=\frac{v_{ij}}{\sqrt{v_{ii}v_{jj}}}=\frac{s_{ij}}{\sqrt{s_{ii}s_{jj}}}, \quad 1\leq i,j\leq p$

记为样本相关系数矩阵。

3.2.3 正态总体均值的置信域估计

考：已知时化成分布、未知时化成分布—>F分布

等价于似然比检验和区间估计、使用输入量构造统计量、与似然比殊途同归。

A.单总体

设是来自p元正态总体的随机样本，其中. 上面给出了总体均值向量和总体协方差矩阵的无偏估计分别是样本均值向量和样本协方差矩阵. 下面讨论的置信域估计问题，分别在总体协方差阵已知和未知的两种情况下讨论。

已知

如果总体协方差矩阵已知，样本均值向量的分布可以通过标准化后的形式来推导出：

$n(\bar{\mathbf{X}} - \boldsymbol{\mu})'\boldsymbol{\Sigma}^{-1}(\bar{\mathbf{X}} - \boldsymbol{\mu}) \stackrel{d}{\rightarrow} \chi^2(p)$

则的水平为的置信域估计为：

$D = \left\{\boldsymbol{\mu} \in \mathbb{R}^p : n(\bar{\mathbf{X}} - \boldsymbol{\mu})'\boldsymbol{\Sigma}^{-1}(\bar{\mathbf{X}} - \boldsymbol{\mu}) \leq \chi^2_{1 - \alpha}(p)\right\}$

即有意味着在大量的重复实验中，置信域将包含真实总体均值的概率为。

Q: 分布与置信域的联系？

A: 具体来说，样本均值和总体均值之间的偏差经过标准化后（即通过协方差矩阵的逆来标准化）符合分布。这意味着，我们可以通过卡方分布的分位点来构建置信区间。

置信域 D中是卡方分布自由度为时，置信度为的分位点。这表示总体均值在给定的样本数据下落入该置信域的概率为。

未知

因为我们无从得知，所以使用的无偏估计来代替。令：

$\begin{align} T^2 &= n(\bar{X} - \mu)'S^{-1}(\bar{X} - \mu)\\ &=n(n - 1)(\bar{X} - \mu)'V^{-1}(\bar{X} - \mu)\\ &\sim T^2_p(n-1) \end{align}$

由正态样本统计量的性质知：, , 且与独立.

Hotelling 分布性质如下：

性质说明

1. ,其中分子分母相互独立；

2.

性质	说明
1.	,其中分子分母相互独立；
2.

因此有：

$T^2 = (n - 1)(\sqrt{n}(\bar{X} - \mu))'V^{-1}(\sqrt{n}(\bar{X} - \mu)) \stackrel{d}{\rightarrow} T_p^2(n - 1)\\ \frac{1}{n - 1}T^2 = n(\bar{X} - \mu)'V^{-1}(\bar{X} - \mu) \stackrel{d}{\rightarrow} \frac{\chi^2(p)}{\chi^2(n-p)}\\ \frac{n - p}{(n - 1)p}T^2 \stackrel{d}{\rightarrow} \frac{\chi^2(p)/p}{\chi^2(n - p)/(n - p)} \stackrel{d}{\rightarrow} F(p, n - p)$

则当未知时，的水平为的置信域估计为 :

$D = \left\{\boldsymbol{\mu} \in \mathbb{R}^p : \frac{n(n - p)}{p}(\bar{X} - \boldsymbol{\mu})'V^{-1}(\bar{X} - \boldsymbol{\mu}) \leq F_{1 - \alpha}(p, n - p)\right\}$

即有

PS: 因为这个置信域D是一个二次型，那么上述的不等式就是对这个二次型的约束，所以，这个置信域是一个超椭球。

协方差矩阵的逆定义了椭球的方向和形状，特征值决定了每个方向上的伸缩因子。

分布的临界值确定了超椭球的大小。

B.两总体

设独立总体，，，。 (属于同一维度空间，但分布不同。)

记，分别为来自总体和的样本，。我们要构造总体均值差的置信域估计。

已知：

已知条件	对应公式
样本X的样本离差阵和协方差矩阵
样本Y的样本离差阵和协方差矩阵

我们下面讨论的问题是：

: ①未知，②已知
（这种情况在本课程中不涉及，下面也不会涉及）

因此下面对于未知、已知的考虑的前提是.

已知

由，，有:

$(\bar X-\bar Y)\overset{d}{\sim}N_p(\delta,(\frac1m+\frac1n)\Sigma)=N_p(\delta,\frac{mn}{m + n}\Sigma)$

根据二次型的性质：,假设有个p阶方阵 ,则有. 当时, .

$\frac{mn}{m + n}((\bar{X} - \bar{Y}) - \delta)'\Sigma^{-1}((\bar{X} - \bar{Y}) - \delta) \stackrel{d}{\rightarrow} \chi^2(p)$

由此得到的水平为的置信域估计为:

$D = \left\{\delta \in \mathbb{R}^p : \frac{mn}{m + n}((\bar{X} - \bar{Y}) - \delta)'\Sigma^{-1}((\bar{X} - \bar{Y}) - \delta) \leq \chi^2_{1 - \alpha}(p)\right\}.$

未知

记和分别为总体和的样本离差阵。

由和的联合密度函数:

$\begin{align} &(2\pi)^{-(m + n)p/2}|\boldsymbol{\Sigma}|^{-(m + n)/2} \cdot \\ &\exp\left\{-\frac{1}{2}\text{tr}[\boldsymbol{\Sigma}^{-1}(V_X + V_Y + m(\bar{X}-\boldsymbol{\mu}_1)(\bar{X}-\boldsymbol{\mu}_1)' + n(\bar{Y}-\boldsymbol{\mu}_2)(\bar{Y}-\boldsymbol{\mu}_2)')]\right\} \end{align}$

知的极大似然估计为。

记，并令 :

$T^2 = \frac{mn(m + n - 2)}{m + n}((\bar{X}-\bar{Y})-\boldsymbol{\delta})'V^{-1}((\bar{X}-\bar{Y})-\boldsymbol{\delta})$

由于与相互独立，且

$\sqrt{\frac{mn}{m + n}}((\bar{X}-\bar{Y})-\boldsymbol{\delta}) \stackrel{d}{\rightarrow} N_p(0,\boldsymbol{\Sigma}), \quad V \stackrel{d}{\rightarrow} W_p(m + n - 2,\boldsymbol{\Sigma})\\ T^2 \stackrel{d}{\rightarrow} T_p^2(m + n - 2)$

进而可知

$\begin{align} &\frac{m + n - p - 1}{(m + n - 2)p}T^2 \\ &= \frac{(m + n - p - 1)mn}{(m + n)(m + n - 2)p}((\bar{X}-\bar{Y})-\boldsymbol{\delta})'V^{-1}((\bar{X}-\bar{Y})-\boldsymbol{\delta}) \\ &\stackrel{d}{\sim} F(p,m + n - p - 1) \end{align}$

由此得到的水平为的置信域估计为

$D = \left\{ \boldsymbol{\delta} \in \mathbb{R}^p :\begin{align} \frac{(m + n - p - 1)mn}{(m + n)p}((\bar{X} - \bar{Y}) - \boldsymbol{\delta})'V^{-1}((\bar{X} - \bar{Y}) - \boldsymbol{\delta})\\ \leq F_{1 - \alpha}(p, m + n - p - 1)\end{align} \right\}$

3.3 多元正态分布的检验

本质上就是求似然比、知道一般形式、原则。

考，但是不会考复杂的。最多找一个非常简单的东西写一个似然比。

多元正态分布的检验问题包括：

单总体	多总体	多变量
均值检验	均值比较检验	独立性检验
协方差检验	协方差比较检验	条件独立性检验
—-	均值和协方差同时比较检验	—-

3.3.0 均值向量的改进估计

总体均值向量的极大似然估计, 定义用估计的损失函数为.

：取值越大，表示离的距离越来越远，损失越来越大。
：用估计没有损失。

实际问题中，对于均值向量的估计，希望找到一个对于所有的, 几乎处处使得风险函数=0的估计。但是实际上这样的估计通常是不存在的，因此我们退而求其次，希望找到一个估计, 使得其风险函数小于的风险，或者不比的风险大。这就是改进估计。

已知

令, 平方和损失函数定义为：

$L(\bar x,\mu)=\sum^n_{i=1}(\bar x_i-\mu_i)'(\bar x_i-\mu_i)=(\bar x-\mu)'(\bar x-\mu)$

一个好的估计希望平方损失越小越好，在统计决策理论中，损失函数的平均值称为风险函数。作为的估计，它在平方和损失函数下的风险函数为：

$\begin{align} R(\bar x)&=E[L(\bar x,\mu)]=E[(\bar x-\mu)'(\bar x-\mu)]\\ &=tr\left\{E[(\bar x-\mu)'(\bar x-\mu)]\right\}\\ &=\frac{tr(\Sigma)}{n}\\ \end{align}$

的风险函数只依赖于,与无关。

当p=1,2时：在平方和损失函数下，样本均值是总体均值的容许估计，改进不存在。
当p3时：样本均值是总体均值的不容许估计。

极大似然估计：

设是来自多元正态总体的样本，其中.
$\begin{align*} L(\mu,\Sigma)&=\prod^n_{i=1}\frac{1}{(2\pi)^{\frac p 2}|\Sigma|^{\frac 1 2}}\exp[-\frac 1 2 (x_i-\mu)'\Sigma^{-1}(x_i-\mu)]\\ &=\frac{1}{(2\pi)^{np/2}|\Sigma|^{n/2}}\exp\left[-\frac{1}{2}\sum_{i = 1}^{n}(x_{i}-\mu)'\Sigma^{-1}(x_{i}-\mu)\right]\\ &=\frac{1}{(2\pi)^{np/2}|\Sigma|^{n/2}}\exp\left[-\frac{1}{2}\text{tr}\left(\Sigma^{-1}\left\{\sum_{i = 1}^{n}(x_{i}-\mu)(x_{i}-\mu)'\right\}\right)\right]\\ &=\frac{1}{(2\pi)^{np/2}|\Sigma|^{n/2}}\exp\left[-\frac{1}{2}\text{tr}\left(\Sigma^{-1}\{V + n(\bar{x}-\mu)(\bar{x}-\mu)'\}\right)\right] \end{align*}$
首先给定时，求的极大似然估计，即求对数似然函数的极大值点。由式(5.3)，给定，关于的对数似然函数为
$\begin{align*} \ln L(\mu,\Sigma)&=-\frac{n}{p}\ln2\pi-\frac{n}{2}\ln|\Sigma|-\frac{1}{2}\text{tr}(\Sigma^{-1}\{V + n(\bar{x}-\mu)(\bar{x}-\mu)'\})\\ &=-\frac{n}{p}\ln2\pi-\frac{n}{2}\ln|\Sigma|-\text{tr}(\Sigma^{-1}V)-\frac{n}{2}(\bar{x}-\mu)'\Sigma^{-1}(\bar{x}-\mu)\\ &\leq-\frac{n}{p}\ln2\pi-\frac{n}{2}\ln|\Sigma|-\text{tr}(\Sigma^{-1}V) \end{align*}$
上式不等式中等号成立当且仅当。因此，总体均值向量的极大似然估计为样本均值向量。由，因此，样本均值向量是的无偏估计。将上式中的用它的极大似然估计替换，得到的似然函数为:
$L(\bar{x},\Sigma)=\frac{(2\pi)^{np/2}}{|\Sigma|^{n/2}}\exp\left[-\frac{1}{2}\text{tr}(\Sigma^{-1}V)\right]$
令，其中是正交矩阵，是对角矩阵，则上式可以简化为
$L(\bar{x},\Sigma)=\frac{1}{(2\pi)^{np/2}|V|^{n/2}}\prod_{k = 1}^{p}\left[\lambda_k^{n/2}\exp\left\{-\frac{\lambda_k}{2}\right\}\right]$
由于在处取最大值，所以上式在时取最大值，从而可知，的极大似然估计满足条件。由此可见，的极大似然估计为。

定理5.1.2 设为来自元正态总体的一组随机样本，，为样本均值向量，为样本离差阵，则和的极大似然估计分别为和。

3.3.1 单总体均值检验

设是来自多元正态总体的个独立样本，其中，，。我们关心如下总体均值的检验问题：

$H_0:\boldsymbol{\mu}=\boldsymbol{\mu}_0,\quad v.s.\quad H_1:\boldsymbol{\mu}\neq\boldsymbol{\mu}_0$

记和分别是样本均值和样本离差阵。

似然比检验方法

假设我们有一个统计模型，参数空间为, 其中包含了所有可能的参数值。检验问题通常表述为：
$H_0:\theta\in\Theta_0，\quad v.s.\quad H_1:\theta\in\Theta_1=\Theta\backslash\Theta_0$
表述为参数属于一个特定的子集, 表述为参数不属于原假设所定义的子集, 即属于中除之外的所有可能值。符号 \ 表示集合的差集运算。

记样本下的似然函数为。似然比定义为在原假设下，似然函数的最大值与在整个参数空间下的似然函数最大值之比。
$\lambda=\frac{\sup_{\theta\in\Theta_0}L(\theta|X)}{\sup_{\theta\in\Theta}L(\theta|X)}$
此处写的是上确界（所有上界中最小的一个），即使没有最大元素，但上确界仍然存在，这是sup与max的区别。

似然比检验统计量为：
$T=-2\ln(\lambda)=-2\ln\frac{\sup_{\theta\in\Theta_0}L(\theta|X)}{\sup_{\theta\in\Theta}L(\theta|X)}$
可以通过在零假设下的分布（零分布）构造检验的拒绝域。

(1) 已知的情形

均值参数的似然比

$\begin{align} L(\bar{x},\Sigma)&=\frac{1}{(2\pi)^{np/2}|\Sigma|^{n/2}}\exp\left[-\frac{1}{2}\text{tr}\left(\Sigma^{-1}\{V + n(\bar{x}-\mu)(\bar{x}-\mu)'\}\right)\right]\\\\ \lambda&=\frac{\sup_{\theta\in\Theta_0}L(\theta|X)}{\sup_{\theta\in\Theta}L(\theta|X)}\\ &=\frac{\exp\left\{-\frac 1 2\text{tr}(\boldsymbol{\Sigma}^{-1}(n(\bar{\mathbf{x}}-\boldsymbol{\mu}_0)(\bar{\mathbf{x}}-\boldsymbol{\mu}_0)'))\right\}}{\sup_{\boldsymbol{\mu}\in\mathbb{R}^p}\left[\exp\left\{-\frac 1 2\text{tr}(\boldsymbol{\Sigma}^{-1}(n(\bar{\mathbf{x}}-\boldsymbol{\mu})(\bar{\mathbf{x}}-\boldsymbol{\mu})'))\right\}\right]} \\ &=\frac{\exp\left\{-\frac 1 2n(\bar{\mathbf{x}}-\boldsymbol{\mu}_0)'\boldsymbol{\Sigma}^{-1}(\bar{\mathbf{x}}-\boldsymbol{\mu}_0)\right\}}{\sup_{\boldsymbol{\mu}\in\mathbb{R}^p}\left[\exp\left\{-\frac 1 2n(\bar{\mathbf{x}}-\boldsymbol{\mu})'\boldsymbol{\Sigma}^{-1}(\bar{\mathbf{x}}-\boldsymbol{\mu})\right\}\right]}\\ &=\frac{\exp\left\{-\frac 1 2 n(\bar{\mathbf{x}}-\boldsymbol{\mu}_0)'\boldsymbol{\Sigma}^{-1}(\bar{\mathbf{x}}-\boldsymbol{\mu}_0)\right\}}{\exp\left\{-\frac 1 2 n(\bar{\mathbf{x}}-\boldsymbol{\hat\mu})'\boldsymbol{\Sigma}^{-1}(\bar{\mathbf{x}}-\boldsymbol{\hat\mu})\right\}},\quad\hat\mu=\bar x\\ & =\exp\left\{-\frac 1 2n(\bar{\mathbf{x}}-\boldsymbol{\mu}_0)'\boldsymbol{\Sigma}^{-1}(\bar{\mathbf{x}}-\boldsymbol{\mu}_0)\right\} \end{align}$

因此似然比检验统计量为

$T = - 2\ln(\lambda)=n(\bar{\mathbf{x}}-\boldsymbol{\mu}_0)'\boldsymbol{\Sigma}^{-1}(\bar{\mathbf{x}}-\boldsymbol{\mu}_0)$

故当时拒绝零假设，其犯第一类错误的概率为。

(2) 未知的情形

记参数的似然比为 ():

$\begin{align} \lambda&=\frac{\sup_{\boldsymbol{\Sigma}}\left[|\boldsymbol{\Sigma}|^{-n/2}\exp\left\{-\frac 1 2\text{tr}(\boldsymbol{\Sigma}^{-1}(V + n(\bar{\mathbf{x}}-\boldsymbol{\mu}_0)(\bar{\mathbf{x}}-\boldsymbol{\mu}_0)'))\right\}\right]}{\sup_{\{\boldsymbol{\mu},\boldsymbol{\Sigma}\}}\left[|\boldsymbol{\Sigma}|^{-n/2}\exp\left\{-\frac 1 2\text{tr}(\boldsymbol{\Sigma}^{-1}(V + n(\bar{\mathbf{x}}-\boldsymbol{\mu})(\bar{\mathbf{x}}-\boldsymbol{\mu})'))\right\}\right]}\\ &=\frac{\sup_{\boldsymbol{\Sigma}}\left[|\boldsymbol{\Sigma}|^{-n/2}\exp\left\{-\frac 1 2\text{tr}(\boldsymbol{\Sigma}^{-1}V_0)\right\}\right]}{\sup_{\{\boldsymbol{\mu},\boldsymbol{\Sigma}\}}\left[|\boldsymbol{\Sigma}|^{-n/2}\exp\left\{-\frac 1 2\text{tr}(\boldsymbol{\Sigma}^{-1}(V + n(\bar{\mathbf{x}}-\boldsymbol{\mu})(\bar{\mathbf{x}}-\boldsymbol{\mu})'))\right\}\right]} \\ &=\frac{|\boldsymbol{\hat\Sigma_0}|^{-n/2}\exp\left\{-\frac 1 2\text{tr}(\boldsymbol{\hat\Sigma_0}^{-1}V_0)\right\}}{|\boldsymbol{\hat\Sigma}|^{-n/2}\exp\left\{-\frac 1 2\text{tr}(\boldsymbol{\hat\Sigma}^{-1}(V + n(\bar{\mathbf{x}}-\boldsymbol{\hat\mu})(\bar{\mathbf{x}}-\boldsymbol{\hat\mu})'))\right\}} \\ \end{align}$

其中是原假设为真时：时的极大似然估计。

$\hat\Sigma_0=\frac1n\sum^n_{i=1}(x_i-\mu_0)(x_i-\mu_0)'$

分母中的是当时，的极大似然估计。

$\hat \mu=\bar x\\ \hat\Sigma=\frac 1 n \sum^n_{i=1}(x_i-\bar x) (x_i-\bar x)'=\frac V n$

继续计算, 分母后面的exp因为所以等于0，;且有：

$\begin{align} \lambda&=\frac{|\frac{V_0}n|^{-n/2}e^{-\frac {np} 2}}{\left|\frac V n\right|^{-n/2}},\quad e^{-\frac {np} 2}常数项忽略\\ &=\frac{\left|V_0\right|^{-n/2}}{\left|V\right|^{-n/2}}\\ &=\left(\frac{\left|V\right| + n(\bar{\mathbf{x}}-\boldsymbol{\mu}_0)(\bar{\mathbf{x}}-\boldsymbol{\mu}_0)'}{\left|V\right|}\right)^{-n/2} \\ &=\left|I_p + nV^{-1/2}(\bar{\mathbf{x}}-\boldsymbol{\mu}_0)(\bar{\mathbf{x}}-\boldsymbol{\mu}_0)'V^{-1/2}\right|^{-n/2}\\ &=(1 + n(\bar{\mathbf{x}}-\boldsymbol{\mu}_0)'V^{-1}(\bar{\mathbf{x}}-\boldsymbol{\mu}_0))^{-n/2} \end{align}$

利用似然比原理，在较小时拒绝原假设, 从而认为备择假设成立. 当原假设成立时，由, 所以通常取：

$T^{2}=n(n - 1)(\bar{x}-\mu_{0})'V^{-1}(\bar{x}-\mu_{0})=n(\bar{x}-\mu_{0})'S^{-1}(\bar{x}-\mu_{0})$

为检验统计量。并在较大时拒绝原假设, 从而认为备择假设成立。

根据Hotelling 分布的性质有:

$T^{2} \stackrel{d}{\rightarrow} T_{p}^{2}(n - 1)\\ \frac{n - p}{(n - 1)p}T^{2} \stackrel{d}{\rightarrow} F(p, n - p)$

则当时拒绝零假设，其犯第一类错误的概率为。

检验的p值为：

$p_v=Pr(F_{p,n-p}\ge\frac{n-p}{(n-1)p}T^2)$

栗子(检验单总体、两总体均值)

(1): 在正态假设下，哥特式教堂的长度和中殿长度是否与罗马式教堂具有相同的均值？

计算哥特式教堂数据的:

$\bar x=\begin{pmatrix}121.12\\22.84\end{pmatrix},V=\begin{pmatrix}19466.70& 2257.90\\2257.90& 469.56\end{pmatrix}$

n=16,p=2, , 未知。

$T^2=n(n-1)(\bar X-\mu_0)'V^{-1}(\bar X-\mu_0)=17.283\\$

设定显著性水平为, 计算检验的p值：

$\begin{align} p_v&=Pr(F_{p,n-p}\ge\frac{n-p}{(n-1)p}T^2)\\ &=Pr(F(2,14)\ge8.0654)\\ &=0.0047\\ &<0.05 \end{align}$

结论：故拒绝零假设，, 认为哥特式教堂和罗马式教堂没有相同的长度和中殿高度。

(2): 哥特式教堂的长度与罗马式教堂长度是否具有相同的均值？

这实际上是一个单总体正态分布检测。哥特式教堂的样本协方差阵:

$S=\frac{V}{n-1}=\begin{pmatrix}19466.70/15& 2257.90/15\\2257.90/15& 469.56/15\end{pmatrix}=\begin{pmatrix}12977.78& 150.53\\150.53& 31.3\end{pmatrix}=\begin{pmatrix}s_{11}&s_{12}\\s_{21}&s_{22}\end{pmatrix}$

t-检验与检验的p值：

$t_1=\sqrt n \frac{\bar X_1-145.29}{\sqrt{s_{11}}} =4\frac{121.12-145.29}{\sqrt{1297.78}} =-2.648\\\\ p=Pr\left\{|t(15)|\ge|t_1|\right\}=2Pr(t(15)\le -2.648)=0.017\le0.05$

总结：因此认为哥特式教堂的长度与罗马式教堂长度没有相同均值。

(3): 哥特式教堂的中殿高度与罗马式教堂的中殿高度是否具有相同的均值？

$t_2=\sqrt n\frac{\bar X_2-22.69}{\sqrt{s_{22}}}=4\times\frac{22.84-22.69}{\sqrt{31.3}}=0.107\\\\ p=Pr\left\{|t(15)|\ge|t_2|\right\}=2Pr(t(15)\ge 0.107)=0.916\gt 0.05$

总结：因此认为哥特式教堂的中殿高度与罗马式教堂的中殿高度具有相同的均值.

两种教堂长度和中殿高度的比较问题（例1续）

如果设定。考虑如下的协方差阵未知时的均值检验问题：

$H_0:\mu = \mu_0^*，\quad v.s.\quad H_1:\mu\neq\mu_0^*$

此时Hotelling 检验统计量、计算的p值为：

$T^2=n(n - 1)(\bar{X}-\mu_0^*)'V^{-1}(\bar{X}-\mu_0^*) = 11.507\\\\ p=P\left\{F(p,n - p)\geq\frac{n - p}{(n - 1)p}T^2\right\} =P\left\{F(2,14)\geq5.370\right\}=0.019$

结论：拒绝零假设。

1’) 哥特式教堂的长度与罗马式教堂长度是否有相同均值的t - 检验、p值：

$t_1^*=\sqrt{n}\cdot\frac{\bar{X}_1 - 131}{\sqrt{S_{11}^*}}=\sqrt{16}\cdot\frac{121.12 - 131}{\sqrt{1297.78}}=-1.097\\\\ p = P_r\{|t(15)|\geq|t_1^*|\}=2P_r\{t(15)\leq - 1.097\}=0.290>0.05$

结论：因此认为哥特式教堂的长度与罗马式教堂长度有相同均值。

2’) 哥特式教堂的中殿高度与罗马式教堂的中殿高度是否有相同均值的t - 检验、p值：

$t_2^*=\sqrt{n}\cdot\frac{\bar{X}_2 - 21}{\sqrt{S_{22}^*}}=\sqrt{16}\cdot\frac{22.84 - 21}{\sqrt{31.30}}=1.315\\\\ p = P_r\{|t(15)|\geq|t_2^*|\}=2P_r\{t(15)\geq1.315\}=0.208>0.05$

结论：因此认为哥特式教堂的中殿高度与罗马式教堂的中殿高度有相同的均值。

3.3.2 两个多元总体均值比较的检验

记和分别为来自总体和的独立样本，，，。

两个总体均值是否相等的检验问题为:

$H_0:\mu_1 = \mu_2，\quad v.s.\quad H_1:\mu_1\neq\mu_2$

注意：此时两个总体的协方差阵相等。记和分别为总体和的样本均值。

(1) 已知的情形

的似然函数为(去掉常数项):

$L(\mu_1,\mu_2)=\exp\left\{-\frac{1}{2}[m(\bar{x}-\mu_1)'\Sigma^{-1}(\bar{x}-\mu_1)+n(\bar{y}-\mu_2)'\Sigma^{-1}(\bar{y}-\mu_2)]\right\}\\ \hat{\mu}_0=\frac{m\bar{x}+n\bar{y}}{m + n}=\frac{\sum_{i = 1}^{m}x_i+\sum_{j = 1}^{n}y_j}{m + n}$

当时，的极大似然估计是。

检验问题的似然比为:

$\begin{align} \lambda&=\frac{\sup_{\mu}L(\mu,\mu)}{\sup_{\{\mu_1,\mu_2\}}L(\mu_1,\mu_2)}\\ &=\exp\left\{-\frac{1}{2}[m(\bar{x}-\hat{\mu}_0)'\Sigma^{-1}(\bar{x}-\hat{\mu}_0)+n(\bar{y}-\hat{\mu}_0)'\Sigma^{-1}(\bar{y}-\hat{\mu}_0)]\right\}\\ &=\exp\left\{-\frac{1}{2}\left[\frac{mn}{m + n}(\bar{x}-\bar{y})'\Sigma^{-1}(\bar{x}-\bar{y})\right]\right\} \end{align}$

$m(\bar{x}-\hat{\mu}_0)'\Sigma^{-1}(\bar{x}-\hat{\mu}_0)+n(\bar{y}-\hat{\mu}_0)'\Sigma^{-1}(\bar{y}-\hat{\mu}_0)=\frac{mn}{m + n}(\bar{x}-\bar{y})'\Sigma^{-1}(\bar{x}-\bar{y})$

则检验比检验统计量为:

$T=-2\log(\lambda)=\frac{mn}{m + n}(\bar{x}-\bar{y})'\Sigma^{-1}(\bar{x}-\bar{y})\vert_{H_0}\stackrel{d}{\sim}\chi^2(p)$

当时拒绝零假设，其犯第一类错误的概率为。

(2) 未知的情形

记和分别为总体和的样本离差阵，。

的似然函数为:

$L(\mu_1,\mu_2,\Sigma)=\frac{1}{\vert\Sigma\vert^{\frac{(m + n)}2}} \exp\left\{-\frac{1}{2}\text{tr}[\Sigma^{-1}(V + m(\bar{x}-\mu_1)(\bar{x}-\mu_1)' + n(\bar{y}-\mu_2)(\bar{y}-\mu_2)')]\right\}$

当时，和的极大似然估计分别为：，的极大似然估计为.在原假设成立时()，的极大似然估计为. 在原假设成立时，将似然函数中的均值向量, 从而得到原假设成立时的的似然函数为：

$\begin{align} L(\Sigma)&=\frac{1}{\vert\Sigma\vert^{\frac{(m + n)}2}} \exp\left\{-\frac{1}{2}\text{tr}[\Sigma^{-1}(V_1+V_2 + m(\bar{x}-\hat\mu_0)(\bar{x}-\hat\mu_0)' + n(\bar{y}-\hat\mu_0)(\bar{y}-\hat\mu_0)')]\right\}\\ \hat \Sigma_0&=\frac{V_1+V_2 + m(\bar{x}-\hat\mu_0)(\bar{x}-\hat\mu_0)'+ n(\bar{y}-\hat\mu_0)(\bar{y}-\hat\mu_0)'}{m+n}\\ \hat \Sigma_0&=\frac{V_1+V_2 + \frac{mn}{m + n}(\bar{x}-\bar{y})(\bar{x}-\bar{y})'}{m+n} \end{align}$ $\because m(\bar{x}-\hat{\mu}_0)'\Sigma^{-1}(\bar{x}-\hat{\mu}_0)+n(\bar{y}-\hat{\mu}_0)'\Sigma^{-1}(\bar{y}-\hat{\mu}_0)=\frac{mn}{m + n}(\bar{x}-\bar{y})'\Sigma^{-1}(\bar{x}-\bar{y})\\ \therefore m(\bar{x}-\hat\mu_0)(\bar{x}-\hat\mu_0)'+ n(\bar{y}-\hat\mu_0)(\bar{y}-\hat\mu_0)'= \frac{mn}{m + n}(\bar{x}-\bar{y})(\bar{x}-\bar{y})'$

检验问题的似然比为:

$\begin{align} \lambda&=\frac{\sup_{\{\mu,\Sigma\}}L(\mu,\mu,\Sigma)}{\sup_{\{\mu_1,\mu_2,\Sigma\}}L(\mu_1,\mu_2,\Sigma)}\\ &=\left(\frac{\vert V_1+V_2 + \frac{mn}{(m + n)}(\bar{x}-\bar{y})(\bar{x}-\bar{y})'\vert}{\vert V_1+V_2\vert}\right)^{-(m + n)/2}\\ &=\vert I_p+\frac{mn}{m+n}(V_1+V_2)^{-\frac 1 2}(\bar{x}-\bar{y})(\bar{x}-\bar{y})'(V_1+V_2)^{-\frac 1 2}\vert^{-(m + n)/2}\\ &=\left(1+\frac{mn}{m + n}(\bar{x}-\bar{y})'(V_1+V_2)^{-1}(\bar{x}-\bar{y})\right)^{-(m + n)/2} \end{align}$

令 :

$T^2=\frac{mn(m + n - 2)}{m + n}(\bar{x}-\bar{y})'(V_1+V_2)^{-1}(\bar{x}-\bar{y})\\\\ T^2\vert_{H_0}\stackrel{d}{\sim}T^2_p(m + n - 2)$

取为检验统计量，在原假设为真()时，, 且在较大时拒绝原假设, 从而认为备择假设成立(). 再根据Hotelling 分布的性质：

$\frac{1}{(m + n - 2)}T^2_p(n+m-2)\overset{d}{=}\frac{\chi^2_p}{\chi^2_{m + n - p - 1}}\\ \frac{(m + n - p - 1)}{(m + n - 2)p}T^2\overset{d}{\sim}F(p,m + n - p - 1)\\ p_v=Pr\left( F_{1-\alpha}(p,m + n - p - 1)\ge\frac{(m + n - p - 1)}{(m + n - 2)p}T^2\right)$

因此，当时拒绝零假设，其犯第一类错误的概率为。

MLE小结

似然比检验统计量由似然函数在极大似然估计下的似然函数值决定。

相同协方差阵下正态总体均值和协方差阵的极大似然估计(MLE)：

均值	协方差阵
单总体：均值的极大似然估计为样本均值;	计算在给定均值极大似然估计下协方差阵的似然函数:
多总体：各总体均值无约束的极大似然估计为各自的样本均值;
多总体：在各总体均值相等的约束条件下，均值的极大似然估计为将所有样本看成是来自同一总体时的样本均值;	其中是仅与数据有关的正定矩阵，则协方差矩阵的极大似然估计。

Ch4 多元线性模型

不考的：(有些不太确定)

广义逆

有约束的最小二乘基本定理

左乘：有约束化为无约束-线性假设检验

右乘：均值子集的线性假设

多元线性回归模型中参数估计、假设检验、选取变量

多元线性模型的均值置信域和预测域

4.1 多元线性模型

要清楚多元线性模型中的每一个参数都代表什么、考基于矩阵形式

知道最小二乘估计的形式

理论上的总体形式，一元线性模型的定义：

$y = x'\beta+\epsilon$

其中，是模型参数，是随机误差，。

而有了数据之后，可以写成矩阵的形式，估计它的最小二乘。

$Y = X\beta+\epsilon\\ \hat{\beta}=(X'X)^{-1}X'Y$

与的关系可表示为如下个一元线性模型：

$y_{(i)} = x'\beta_i+\epsilon_{(i)}$

，其中，是每个子线性模型的参数，是每个因变量对应的随机误差，，。

假设有组观测。记，，。

x 和 y 由向量转变为矩阵，原先只是在空间，现在在空间。

多元线性模型的定义如下：

$Y = XB + e$

其中:

是阶观测的随机矩阵，；
是已知的阶设计矩阵，，； (3)
是阶的未知回归系数矩阵；
是阶不可观测的随机误差矩阵。

$\begin{align} Y&=\begin{pmatrix}y_{(11)}&y_{(12)}&\cdots&y_{(1p)}\\y_{(21)}&y_{(22)}&\cdots&y_{(2p)}\\\vdots&\vdots&\ddots&\vdots\\y_{(n1)}&y_{(n2)}&\cdots&y_{(np)}\end{pmatrix}=\begin{pmatrix}y_1'\\y_2'\\\vdots\\y_n'\end{pmatrix}=(Y_{(1)},\cdots,Y_{(p)})'\\ X&=\begin{pmatrix}x_{(11)}&x_{(12)}&\cdots&x_{(1k)}\\x_{(21)}&x_{(22)}&\cdots&x_{(2k)}\\\vdots&\vdots&\ddots&\vdots\\x_{(n1)}&x_{(n2)}&\cdots&x_{(nk)}\end{pmatrix}=\begin{pmatrix}x_1'\\x_2'\\\vdots\\x_n'\end{pmatrix}\\ e&=\begin{pmatrix}\epsilon_{(11)}&\epsilon_{(12)}&\cdots&\epsilon_{(1p)}\\\epsilon_{(21)}&\epsilon_{(22)}&\cdots&\epsilon_{(2p)}\\\vdots&\vdots&\ddots&\vdots\\\epsilon_{(n1)}&\epsilon_{(n2)}&\cdots&\epsilon_{(np)}\end{pmatrix}=\begin{pmatrix}\epsilon_1'\\\epsilon_2'\\\vdots\\\epsilon_n'\end{pmatrix}=(\epsilon_{(1)},\cdots,\epsilon_{(p)})' \end{align}$

模型化为，，。

我们假定服从正态分布，只在特别情况下会说明只假定一、二阶矩存在(有界)的情形。

Q: 一阶矩、二阶矩？

A: 矩（moment）是用来描述随机变量分布特性的数字量度。

一阶矩：均值、

二阶矩：方差、协方差：

假设，其中误差协方差阵是未知的阶正定矩阵。由，知独立同分布，且。，则。则有 :

$y_{i}^{\prime}=x_{i}^{\prime}B+\varepsilon_{i}^{\prime}\sim N_{p}(x_{i}^{\prime}B,\Sigma), 1\leq i\leq n$

由于，这里的是一个常数向量（因为给定了自变量和回归系数 B），而是一个多维正态随机向量。

那么模型可以理解为 :

$\begin{cases} E(Y)=XB\\ {Y的行向量}y_{1}^{\prime},\cdots,y_{n}^{\prime}是相互独立的正态向量，同协方差阵\Sigma,\Sigma>0. \end{cases}$

记，则有:

$Y_{(j)}=X\beta_{j}+\varepsilon_{(j)},\quad 1\leq j\leq p$

即模型可以分解为个一元线性模型，这个一元线性模型有相同的设计矩阵。

不难得出的最小二乘估计为，。

若，则.

表示Moore-Penrose伪逆、当X满秩的时候伪逆=真逆）

进而有的最小二乘估计为。

Q: 设计矩阵？

A: 设计矩阵（Design Matrix） 是回归分析中的一个重要概念，用于表示回归模型中自变量（或特征）和观测数据之间的关系。对于多元回归模型，设计矩阵 X 存储了所有观测点的自变量值。具体来说：

Y 是因变量的观测矩阵，表示所有观测点和因变量的值。

X 是设计矩阵，包含所有观测点的自变量（或特征）值，通常是一个的矩阵，其中：

n 是观测点的数量（样本数量）。

k 是自变量的数量（包括常数项，如果有的话）。

例1: p维的正态分布

设是来自的样本，。则

$\begin{cases}E(Y) = XB,\\Y的行向量y_{1}^{\prime},\cdots,y_{n}^{\prime}是相互独立的正态向量，协方差阵\Sigma,\Sigma>0,\end{cases}$

其中，设计矩阵。

例2: 多元方差分析

设有个相互独立的总体，。是来自总体的样本，。记 .

这相当于如下的多元线性模型 :

$\begin{cases}E(Y) = XB,\\Y的行向量y_{1}^{\prime},\cdots,y_{n}^{\prime}是相互独立的正态向量，协方差阵\Sigma,\Sigma>0,\end{cases}$

其中，是阶对角分块矩阵，是阶矩阵。

4.2 充分统计量

总体上没什么新东西：意思是比较简单、会考

协方差矩阵与之前的一致，只是均值发生变化、体现在期望发生变化

需要能推导、考：列满秩、计算期望、协方差矩阵、线性变换

由等价模型知，Y的行向量相互独立，且，。

那么有Y的密度函数为 :

$\begin{align*} f(Y|B,\Sigma)&=\prod_{i = 1}^{n}\frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}\exp\left\{-\frac{1}{2}(y_{i}-x_{i}^{\prime}B)^{\prime}\Sigma^{-1}(y_{i}-x_{i}^{\prime}B)\right\}\\ &=\frac{1}{(2\pi)^{np/2}|\Sigma|^{n/2}}\exp\left\{\frac{1}{2}\text{tr}[(Y - XB)\Sigma^{-1}(Y - XB)^{\prime}]\right\}\\ &=\frac{1}{(2\pi)^{np/2}|\Sigma|^{n/2}}\exp\left\{\frac{1}{2}\text{tr}[(Y - XB)^{\prime}(Y - XB)\Sigma^{-1}]\right\}\\ &=\frac{\exp\left\{-\text{tr}(B^{\prime}X^{\prime}XB\Sigma^{-1})\right\}}{(2\pi)^{np/2}|\Sigma|^{n/2}}\exp\left\{\frac{1}{2}\text{tr}(Y^{\prime}Y\Sigma^{-1}-2B^{\prime}X^{\prime}Y\Sigma^{-1})\right\} \end{align*}$

上面是固定的、才是变量。不同体现在期望是.

显然Y的分布是指数族分布，是参数的充分统计量。

注意到，Y的密度还可以写为:

$\begin{align} f(Y|B,\Sigma)&=\frac{1}{(2\pi)^{np/2}|\Sigma|^{n/2}}\exp\left\{\frac{1}{2}\text{tr}[(Y - XB)^{\prime}(Y - XB)\Sigma^{-1}]\right\} \\ &=\frac{1}{(2\pi)^{np/2}|\Sigma|^{n/2}}\exp\left\{-\frac{1}{2}\text{tr}[Y^{\prime}(I_{n}-X(X^{\prime}X)^{-1}X^{\prime})Y\Sigma^{-1}]\right\}\\ &-\frac{1}{2}\text{tr}\left[((X^{\prime}X)^{-1}X^{\prime}Y - B)^{\prime}(X^{\prime}X)((X^{\prime}X)^{-1}X^{\prime}Y - B)\Sigma^{-1}\right] \end{align}$

可见也是的充分统计量。平方和分解公式（协方差矩阵的估计） :

$\begin{align}(Y - XB)^{\prime}(Y - XB)&=Y^{\prime}(I_{n}-X(X^{\prime}X)^{-1}X^{\prime})Y\\ &+(X^{\prime}X)^{-1}X^{\prime}Y - B)^{\prime}X^{\prime}X((X^{\prime}X)^{-1}X^{\prime}Y - B)\end{align}$

下面的这种用于X列非满秩的情况、没有逆，只能使用伪逆。

情形1： X列满秩

不考广义逆，一定考列满秩的情况。

性质4.1.1

；
；
与相互独立。

(1) 证明：由于，即。又有 :
$vec((X^{\prime}X)^{-1}X^{\prime}Y)=vec((X^{\prime}X)^{-1}X^{\prime}YI_{p})=(I_{p}\otimes(X^{\prime}X)^{-1}X^{\prime})vec(Y)\\\\ \begin{align*} E[vec((X^{\prime}X)^{-1}X^{\prime}Y)]&=(I_{p}\otimes(X^{\prime}X)^{-1}X^{\prime})E[vec(Y)]\\ &=(I_{p}\otimes(X^{\prime}X)^{-1}X^{\prime})vec(XB)\\ &=vec(((X^{\prime}X)^{-1}X^{\prime})(XB)I_{p})\\ &=vec(B)\\\\ Cov[vec((X^{\prime}X)^{-1}X^{\prime}Y)]&=(I_{p}\otimes(X^{\prime}X)^{-1}X^{\prime})Cov[vec(Y)](I_{p}\otimes(X^{\prime}X)^{-1}X^{\prime})^{\prime}\\ &=(I_{p}\otimes(X^{\prime}X)^{-1}X^{\prime})(\Sigma\otimes I_{n})(I_{p}\otimes(X^{\prime}X)^{-1}X^{\prime})^{\prime}\\ &=\Sigma\otimes(X^{\prime}X)^{-1} \end{align*}$
故知，即(1)成立。

(2) 证明：由于，有：
$Y^{\prime}(I_{n}-X(X^{\prime}X)^{-1}X^{\prime})Y = e^{\prime}(I_{n}-X(X^{\prime}X)^{-1}X^{\prime})e$
由误差向量的独立同正态分布性知，而且不难知道是秩为的幂等阵。由第二章关于随机矩阵二次型的性质5的(1)知：
$Y^{\prime}(I_{n}-X(X^{\prime}X)^{-1}X^{\prime})Y\stackrel{d}{\sim}W_{p}(n - k,\Sigma)$
即性质(2)成立。

(3) 证明：又由第二章关于随机矩阵二次型的性质5的(3)知：
$e^{\prime}(I_{n}-X(X^{\prime}X)^{-1}X^{\prime})e与(X^{\prime}X)^{-1}X^{\prime}e独立\\ (X^{\prime}X)^{-1}X^{\prime}Y = B+(X^{\prime}X)^{-1}X^{\prime}e$
知与独立.

4.3 参数估计

如果误差是正态：那么可以使用极大似然估计，就可以写似然。最小二乘不一定要有似然，因为没有正态也能进行最小二乘。在二维正态下，二者等价。

参数(B, Σ)的似然函数为(去掉常数) ：

$L(B, \Sigma|Y) = |\Sigma|^{-n/2} \exp \big\{ -\frac{1}{2} \text{tr} \left[ Y'(I_n - X(X'X)^{-1}X')Y\Sigma^{-1} \right] \\ -\frac{1}{2} \text{tr} \left[ ((X'X)^{-1}X'Y - B)' (X'X) ((X'X)^{-1}X'Y - B) \Sigma^{-1} \right] \big\}$

易知B的极大似然估计为 :

$\hat{B} = (X'X)^{-1}X'Y$

注意到平方和分解 :

$(Y - XB)'(Y - XB) = Y'(I_n - X(X'X)^{-1}X')Y\\ + ((X'X)^{-1}X'Y - B)'X'X((X'X)^{-1}X'Y - B)\\\\ (Y - X\hat{B})'(Y - X\hat{B}) = \min (Y - XB)'(Y - XB)$

即也是的最小二乘估计。

的分布 :

当时，由性质4.1.1(1)知，

$\hat{B} = (X'X)^{-1}X'Y \stackrel{d}{\sim} N_{k\times p}(B, \Sigma \otimes (X'X)^{-1})$

即是的无偏估计，且。

当时，由性质4.1.1的推论(1’’)知，

$L'\hat{B} = L'(X'X)^{-1}X'Y \stackrel{d}{\sim} N_{s\times p}(L'B, \Sigma \otimes L'(X'X)^{-1}L)$

其中。则是的无偏估计，其协差阵为。

将代入似然函数，有:

$L(\hat{B}, \Sigma|Y) = |\Sigma|^{-n/2} \exp \left\{ -\frac{1}{2} \text{tr} \left[ Y'(I_n - X(X'X)^{-1}X')Y\Sigma^{-1} \right] \right\}$

因此，Σ的极大似然估计为

$\hat{\Sigma} = \frac{1}{n} Y'(I_n - X(X'X)^{-1}X')Y$

再将和代入似然函数，有:

$\max_{B, \Sigma} L(B, \Sigma|Y) = |\hat{\Sigma}|^{-n/2} \exp \left\{ -\frac{n\rho}{2} \right\} = |Y'(I_n - X(X'X)^{-1}X')Y|^{-n/2} \left( \frac{n}{e} \right)^{np/2}$

由性质4.1.1的推论(2)知，

$Y'(I_n - X(X'X)^{-1}X')Y \stackrel{d}{\sim} W_p(n - r, \Sigma)\\ \tilde{\Sigma} = \frac{1}{n - r} Y'(I_n - X(X'X)^{-1}X')Y$

易知，即是的无偏估计。

由性质4.1.1的推论(3)知，与相互独立。

4.3.1 最小二乘估计的基本定理

不考有约束的。

第一基本定理

令，则

$R_{0}^{2}\stackrel{d}{\sim}W_{p}(n - r,\Sigma)$

其中。

4.6 多元线性回归

考X,写成矩阵形式（？）不太理解

多元线性回归模型的定义如下：

$Y = 1_n\beta_0'+XB+\varepsilon$

其中：

因变量是阶可观测的随机矩阵，；
设计矩阵(预报因子)是已知的阶矩阵，；
称为回归系数，截距是维向量，斜率是阶矩阵，未知；
是阶不可观测的随机误差矩阵，，是未知的阶正定阵。

行与列向量表示 记，和行与列向量分别为：

$Y=\begin{pmatrix}y_{11}\\ \vdots\\ y_{n1}\end{pmatrix}=(y_{(1)},\cdots,y_{(p)})\\ X=\begin{pmatrix}x_{11}'\\ \vdots\\ x_{n1}'\end{pmatrix}=(x_{(1)},\cdots,x_{(k)})\\ \varepsilon=\begin{pmatrix}\varepsilon_{11}\\ \vdots\\ \varepsilon_{n1}\end{pmatrix}=(\varepsilon_{(1)},\cdots,\varepsilon_{(p)})$

因此，由模型知:

$y_{i}'=\beta_0'+x_{i}'B+\varepsilon_{i}'\stackrel{d}{\sim}N_p(\beta_0'+x_{i}'B,\Sigma),\ 1\leq i\leq n$

令，，则有 :

$y_{(j)}=1_n\beta_{0j}+X\beta_j+\varepsilon_{(j)},\ 1\leq j\leq p$

因此，模型可以分解成个一元线性回归模型，这个一元线性回归模型有相同的设计矩阵。

若令$X^=(1_n,X) $，$ B^=$，则模型(11)又可以写为:

$Y = X^B^+\varepsilon$。

即多元线性回归模型可以转换为多元线性模型。

假定，即列满秩且其列向量与线性无关。因此，可以基于多元线性模型的统计推断研究多元线性回归模型。

一些记号:

$y_{(j)}=\begin{pmatrix}y_{1j}\\ \vdots\\ y_{nj}\end{pmatrix},\bar{y}=\begin{pmatrix}\bar{y}_1\\ \vdots\\ \bar{y}_p\end{pmatrix}=\frac{1}{n}\sum_{i = 1}^{n}y_{ij},\ 1\leq j\leq p\\ x_{(j)}=\begin{pmatrix}x_{1j}\\ \vdots\\ x_{nj}\end{pmatrix},\bar{x}=\begin{pmatrix}\bar{x}_1\\ \vdots\\ \bar{x}_k\end{pmatrix}=\frac{1}{n}\sum_{i = 1}^{n}x_{ij},\ 1\leq j\leq k$

最后有点不确定。

多元统计分析-复习(上)

期末复习-上

知识复习

Ch1 多元分布

1.1 矩阵知识

1.2 多元正态分布

1.2.1 密度函数

1.2.2 线性变换(基本)

性质

1.3 相关系数

Ch2 由多元正态分布导出的分布

2.1 Wishart分布

2.1.1 性质

2.2 Hotelling 分布

Ch3 多元正态分布的估计与检验

3.1 多元正态分布样本统计量

3.1.1 (, ) 的分布性质

3.2 多元正态分布的参数估计

3.2.1 极大似然估计

3.2.2 样本相关系数

3.2.3 正态总体均值的置信域估计

A.单总体

已知

未知

B.两总体

已知

未知

3.3 多元正态分布的检验

3.3.0 均值向量的改进估计

已知

3.3.1 单总体均值检验

(1) 已知的情形

(2) 未知的情形

栗子(检验单总体、两总体均值)

3.3.2 两个多元总体均值比较的检验

(1) 已知的情形

(2) 未知的情形

MLE小结

Ch4 多元线性模型

4.1 多元线性模型

例1: p维的正态分布

例2: 多元方差分析

4.2 充分统计量

情形1： X列满秩

性质4.1.1

4.3 参数估计

4.3.1 最小二乘估计的基本定理

第一基本定理

4.6 多元线性回归