多元统计分析-复习(上)
期末复习-上
[TOC]
知识复习
Ch1 多元分布
不考的
- 特征函数
- 分块矩阵
- 偏相关系数、精度矩阵\(K=\Sigma^{-1}\)
- 矩阵拉直、Kronecker积、矩阵分布
1.1 矩阵知识
\[ Cov(AX)=ACov(X)A'\\ Cov(AX,BY)=ACov(X,Y)B' \]
出送分题,计算二维协方差矩阵,对角线是方差\(Var(X)\),非对角线是协方差\(Cov(X,Y)\).
1.2 多元正态分布
似然=密度。会算似然比、极大似然估计。
1.2.1 密度函数
若\(p\)元随机向量\(X\)服从参数为\(\mu,\Sigma\)的多元正态分布,其概率密度函数为: \[ p(x)=(2\pi)^{-\frac p 2}|\Sigma|^{-\frac 1 2}\exp\left\{-\frac 1 2 (x-\mu)'\Sigma^{-1}(x-\mu)\right\} \] 其中\(\mu\in\mathbb{R}^p\),\(\Sigma\)为p阶正定矩阵,记为\(X\overset{d}{\sim}N_p(\mu,\Sigma)\)。
1.2.2 线性变换(基本)
定理1:设p元随机向量\(X=\mu+AY\), 其中\(\mu\in\mathbb{R}^k, A\)为\(k\times p\)的行满秩矩阵,\(k\le p\), 随机向量\(Y\overset{d}{\sim}N_p(0,I_p)\), 则\(X\overset{d}{\sim}N_k(\mu,\Sigma)\), 其中\(\Sigma=AA'>0\).
p元标准正态分布:\(Y\overset{d}{\sim}N_p(0,I_p)\)
性质
给出的基本都要考。
性质 | 说明: \(X\overset{d}{\sim}N(\mu,\Sigma)\) |
---|---|
密度函数 | \(p(x)=(2\pi)^{-\frac p 2}\|\Sigma\|^{-\frac 1 2}\exp\left\{-\frac 1 2 (x-\mu)'\Sigma^{-1}(x-\mu)\right\}\) |
期望方差 | \(E(X)=\mu,Cov(X)=\Sigma\) |
线性变换 | \(Y=\eta+AX,\eta\in\mathbb{R}^k,A_{k\times p}, Y\overset{d}{\sim}N_k(\eta+A\mu,A\Sigma A')\) |
相互独立 | 设\(X_1,\dots,X_k\)相互独立,\(X_i\overset{d}{\sim}N_p(\mu_i,\Sigma_i),1\le i\le k\), 则\(\sum^k_{i=1}\alpha_iX_i\overset{d}{\sim}N_p(\sum^k_{i=1}\alpha_i\mu_i,\sum^k_{i=1}\alpha^2_i\Sigma_i)\) |
卡方分布 | \(\Sigma>0\), 则\((X-\mu)'\Sigma^{-1}(X-\mu)\overset{d}{\sim}\chi^2_p\), 其中\(\chi^2_p\)是自由度为p的卡方分布。 |
边缘分布 | \(X=\begin{pmatrix}X_1^{(q)}\\X_2^{(p-q)}\end{pmatrix},\mu=\begin{pmatrix}\mu_1\\\mu_2\end{pmatrix},\Sigma=\begin{pmatrix}\Sigma_{11}&\Sigma_{12}\\\Sigma_{21}&\Sigma_{22}\end{pmatrix}\),则\(X_1^{(q)}\overset{d}{\sim}N_q(\mu_1,\Sigma_{11}),X_2^{(p-q)}overset{d}{\sim}N_{p-q}(\mu_2,\Sigma_{22})\) |
分量独立性 | \(X=\begin{pmatrix} X_1^{(q_1)}\\\vdots\\X_k^{(q_k)}\end{pmatrix},\Sigma=\begin{pmatrix}\Sigma_{11}&\ldots&\Sigma_{1k}\\\vdots&\ddots&\vdots\\ \Sigma_{k1}&\ldots&\Sigma_{kk}\end{pmatrix}\),则\(X_i^{(q_i)},X_j^{(q_j)}(1\le i<j\le k)\)相互独立的充要条件是\(Cov(X_i^{q_i},X_j^{(q_j)})=\Sigma_{ij}=0\). |
条件分布 | \((X_1|X_2=x_2)\overset{d}{\sim}N_q(\mu_{1|2},\Sigma_{1|2})\),其中\(\mu_{1|2}=E(X_1|X_2=x_2)=\mu_1+\Sigma_{12}\Sigma_{22}^{-1}(x_2-\mu_2)\),\(\Sigma_{1|2}=Cov(X_1|X_2=x_2)=\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}\).\((\Sigma_{1|2}\le\Sigma_{11})\) |
条件分布考:给出公式计算即可。
1.3 相关系数
计算相关系数,定义知道即可。 \[ p_{ij}=\frac{Cov(X_i,X_j)}{\sqrt{Var(X_i)}\sqrt{Var(X_j)}}=\frac{\sigma_{ij}}{\sqrt{\sigma_{ii}}\sqrt{\sigma_{jj}}} \]
Ch2 由多元正态分布导出的分布
不考的:
- Wishart密度函数、部分性质
- 非中心的Hotelling \(T^2\)分布
- Wilks分布
2.1 Wishart分布
考一个Wishart分布小性质。
设随机向量\(X=(X_1,\cdots,X_n)\),其中\(X_1,\cdots,X_n\) i.i.d.(独立同分布),每个\(X_i\)都遵循一个多维正态分布 \(X_i\stackrel{d}{\sim}N_p(0,\Sigma)\),\(1\leq i\leq n\)。
\(p\)阶Wishart分布:称\(p\)阶随机矩阵\(W = XX'=\sum_{i = 1}^{n}X_iX_i'\)的分布为\(p\)阶Wishart分布,记为 $ WW_p(n,)\(, 其中\)n$称为其自由度。
2.1.1 性质
简要说明 | 性质 |
---|---|
1.分布期望 | 若 \(W \stackrel{d}{\sim} W_p(n,\Sigma)\),则 \(E(W) = n\Sigma\) |
2.线性变换 | 若 \(W \stackrel{d}{\sim} W_p(n,\Sigma)\),\(C\) 是 \(k\times p\) 阶矩阵,则 \(CWC' \stackrel{d}{\sim} W_k(n,C\Sigma C')\) |
2.2 Hotelling \(T^2\)分布
Hotelling \(T^2\)分布:设\(X\overset{d}{\sim}N_p(0,\Sigma),W\overset{d}{\sim}W_p(n,\Sigma)\),且\(X\)和\(W\)相互独立。记为\(T^2=nX'W^{-1}X\).
得到的是数。注意\(X,Y\)的协方差矩阵相同\(\Sigma\)且独立。
进行置信检验使用F分布而不是\(T^2\).因为\(T^2\)本身就能化成F分布。
Ch3 多元正态分布的估计与检验
不考的:
- 极大似然估计中的正交分解
- 样本相关系数的精确分布和渐进分布
- \(\rho=0\)的假设检验
- 渐进分布的区间估计(渐进正态性)、方差齐性变换
- 正态总体均值的Bayes估计
- 多元BF问题
- 多元方差分析
- 独立性检验(很重要,但是不考)、条件独立性检验
- 多重比较
3.1 多元正态分布样本统计量
设\(X_1,X_2,\cdots,X_n\)为来自多元正态总体\(N_p(\mu,\Sigma)\)的独立样本,其中\(\mu\in R^p\),\(\Sigma>0\),\(n>p\)。记:
metric | 公式 | 说明 |
---|---|---|
样本均值 | \(\overline{X}=n^{-1}\sum_{i = 1}^{n}X_i\) | 无偏估计,即\(E(\overline{X})=\mu\)。 |
样本离差阵 | \(V=\sum_{i = 1}^{n}(X_i-\overline{X})(X_i-\overline{X})'\) | 衡量了样本点相对于样本均值的离散程度。 |
样本协方差阵 | \(S=\frac{1}{n-1}V\) | 对离差阵进行归一化 |
事实:\((\overline{X},V)\)是\((\mu,\Sigma)\)的完全充分统计量, 这意味着\(\overline{X}\)和\(V\)包含了样本中关于总体参数\(\mu\)和\(\Sigma\)的所有信息。
3.1.1 (\(\bar{X}\), \(V\)) 的分布性质
- \(\bar{X} \sim N_p(\mu, \Sigma / n)\);
- \(V \sim W_p(n - 1, \Sigma)\);
- \(\bar{X}\)与 \(V\)相互独立。
证明:
(1)记 \(X = (X_1, \cdots, X_n)\),则有 \(E(X) = \mu \mathbf{1}_n'\),\(\text{Cov}(\text{vec}(X)) = I_n \otimes \Sigma\)。
令 \(U = (U_1, U_2, \cdots, U_n)\)为 \(n\)阶正交矩阵,其中: \[ U_1 = \left( \frac{1}{\sqrt{n}}, \frac{1}{\sqrt{n}}, \cdots, \frac{1}{\sqrt{n}} \right)' = \frac{1}{\sqrt{n}} \mathbf{1}_n\\ 1_n'U_j=\sqrt{n}(\frac 1 {\sqrt{n}}1_n)'U_j=\sqrt{n}U_iU_j=0 \] \(U\)的第一列 \(U_1\)被特别选择为与样本均值方向相关的向量。令 \(Y = XU\)记为 \((Y_1, Y_2, \cdots, Y_n)\),则\(Y_1\)代表了样本均值方向上的信息, \(Y_2, \cdots, Y_n\)则代表了与样本均值正交的剩余信息。 \[ E(Y) = E(X)U = \mu \mathbf{1}_n'U = \mu \mathbf{1}_n'\left( \frac{1}{\sqrt{n}} \mathbf{1}_n, U_2, \cdots, U_n \right) = (\sqrt{n} \mu, 0, \cdots, 0)\\ \begin{align*} \text{Cov}(\text{vec}(Y))&=\text{Cov}(\text{vec}(I_p XU))\\ &=\text{Cov}((U' \otimes I_p)\text{vec}(X))\\ &=(U' \otimes I_p)\text{Cov}(\text{vec}(X))(U \otimes I_p)\\ &=(U' \otimes I_p)(I_n \otimes \Sigma)(U \otimes I_p)\\ &=I_n \otimes \Sigma \end{align*} \] 从上面的\(Cov(Y)=I_n\otimes \Sigma\)可以得到:\(Y_1, Y_2, \cdots, Y_n\)相互独立,且\(Y_1 = \sqrt{n}\bar{X} \sim N_p(\sqrt{n}\mu,\Sigma)\), \(Y_2, \cdots, Y_n \sim N_p(0,\Sigma)\)。 因而有\(\bar{X} \sim N_p(\mu,\Sigma / n)\),即(1)成立。
(2)由于\(YY'=(XU)(U'X') = XX'\),即\(\sum_{i = 1}^{n}X_iX_i'=\sum_{i = 1}^{n}Y_iY_i'\),因而有 \[ \begin{align*} V&=\sum_{i = 1}^{n}X_iX_i'-n\bar{X}\bar{X}'\\ &=\sum_{i = 1}^{n}X_iX_i'-Y_1Y_1'\\ &=\sum_{i = 1}^{n}Y_iY_i'-Y_1Y_1'\\ &=\sum_{i = 2}^{n}Y_iY_i'\sim W_p(n - 1,\Sigma)\end{align*} \] 所以(2)成立。 又由于\(\sqrt{n}\bar{X}=Y_1\),\(V=\sum_{i = 2}^{n}Y_iY_i'\),因此\(\bar{X}\)与\(V\)独立,即(3)成立。
3.2 多元正态分布的参数估计
密度函数给出,根据密度函数写似然。
3.2.1 极大似然估计
观测样本\(X=(X_1,X_2,\cdots,X_n)\)的联合密度: \[ f(X)=(2\pi)^{-\frac{n p}{2}}|\Sigma|^{-\frac{n}{2}}\exp\left\{-\frac{1}{2}\text{tr}\Sigma^{-1}(V + n(\bar{X}-\mu)(\bar{X}-\mu)')\right\} \] 首先求\(\mu\)的极大似然估计: \[ \begin{align} f(X)&=(2\pi)^{-\frac{n p}{2}}|\Sigma|^{-\frac{n}{2}}\exp\left\{-\frac{1}{2}\text{tr}\Sigma^{-1}(V + n(\bar{X}-\mu)(\bar{X}-\mu)')\right\}\\ &=(2\pi)^{-\frac{n p}{2}}|\Sigma|^{-\frac{n}{2}}\exp\left\{-\frac{1}{2}\text{tr}\Sigma^{-1}V-\frac{n}{2}\text{tr}\Sigma^{-1}(\bar{X}-\mu)(\bar{X}-\mu)'\right\}\\ &=(2\pi)^{-\frac{n p}{2}}|\Sigma|^{-\frac{n}{2}}\exp\left\{-\frac{1}{2}\text{tr}\Sigma^{-1}V-\frac{n}{2}(\bar{X}-\mu)'\Sigma^{-1}(\bar{X}-\mu)\right\} \end{align} \] 易知\(\mu\)的极大似然估计为\(\max f(X)=(\bar{X}-\mu)'\Sigma^{-1}(\bar{X}-\mu)=0\):\(\hat{\mu}=\bar{X}\)。 即正态总体均值的极大似然估计是样本均值。
3.2.2 样本相关系数
样本相关系数是总体相关系数的估计,与其差距有多大,使用分布刻画。
知道样本相关系数可以检验X和Y独立,不考。
记\(\Upsilon = (\rho_{ij})_{p\times p}\)为正态总体的相关系数矩阵,并记\(V=(v_{ij})_{p\times p}\),\(S=(s_{ij})_{p\times p}\),则\(\rho_{ij}\)的极大似然估计为: \[ \hat{\rho}_{ij}=r_{ij}=\frac{v_{ij}}{\sqrt{v_{ii}v_{jj}}}=\frac{s_{ij}}{\sqrt{s_{ii}s_{jj}}}, \quad 1\leq i,j\leq p \] 记\(R=(r_{ij})_{p\times p}\)为样本相关系数矩阵。
3.2.3 正态总体均值的置信域估计
考:\(\Sigma\)已知时化成\(\chi^2\)分布、\(\Sigma\)未知时化成\(T^2\)分布-->F分布
等价于似然比检验和区间估计、使用输入量构造统计量、与似然比殊途同归。
A.单总体
设\(x_1,\dots,x_n\)是来自p元正态总体\(N_p(\mu,\Sigma)\)的随机样本,其中\(\mu\in\mathbb{R}^p,\Sigma>0,n>p\). 上面给出了总体均值向量\(\mu\)和总体协方差矩阵\(\Sigma\)的无偏估计分别是样本均值向量\(\bar x\)和样本协方差矩阵\(S\). 下面讨论\(\mu\)的置信域估计问题,分别在总体协方差阵\(\Sigma\)已知和未知的两种情况下讨论。
\(\boldsymbol{\Sigma}\)已知
如果总体协方差矩阵 \(\Sigma\)已知,样本均值向量 \(\bar{x}\)的分布可以通过标准化后的形式来推导出: \[ n(\bar{\mathbf{X}} - \boldsymbol{\mu})'\boldsymbol{\Sigma}^{-1}(\bar{\mathbf{X}} - \boldsymbol{\mu}) \stackrel{d}{\rightarrow} \chi^2(p) \] 则\(\boldsymbol{\mu}\)的水平为\((1 - \alpha)\)的置信域估计为: \[ D = \left\{\boldsymbol{\mu} \in \mathbb{R}^p : n(\bar{\mathbf{X}} - \boldsymbol{\mu})'\boldsymbol{\Sigma}^{-1}(\bar{\mathbf{X}} - \boldsymbol{\mu}) \leq \chi^2_{1 - \alpha}(p)\right\} \] 即有 ${ D} = 1 - . $意味着在大量的重复实验中,置信域 \(D\)将包含真实总体均值 \(\mu\)的概率为 \(1 - \alpha\)。
Q: \(\chi^2\)分布与置信域的联系?
A: 具体来说,样本均值 \(\bar{x}\)和总体均值 \(\mu\)之间的偏差经过标准化后(即通过协方差矩阵的逆来标准化)符合 $^2(p) $分布。这意味着,我们可以通过卡方分布的分位点来构建置信区间。
置信域 D中$^2_{1 - }(p) $是卡方分布自由度为 \(p\)时,置信度为 \((1 - \alpha)\)的分位点。这表示总体均值 \(\mu\)在给定的样本数据下落入该置信域的概率为 \(1 - \alpha\)。
\(\Sigma\)未知
因为\(\Sigma\)我们无从得知,所以使用\(\Sigma\)的无偏估计\(S=\frac 1{n-1}V\)来代替。令 : \[ \begin{align} T^2 &= n(\bar{X} - \mu)'S^{-1}(\bar{X} - \mu)\\ &=n(n - 1)(\bar{X} - \mu)'V^{-1}(\bar{X} - \mu)\\ &\sim T^2_p(n-1) \end{align} \]
由正态样本统计量的性质知 :\(\sqrt{n}(\bar{X} - \mu) \stackrel{d}{\rightarrow} N(0, \Sigma)\), \(V \stackrel{d}{\rightarrow} W_p(n - 1, \Sigma)\), 且${X} \(与\)V$独立.
Hotelling \(T^2\)分布性质如下:
性质 说明 1. \(X'W^{-1}X \stackrel{d}{=} \frac{\chi^2(p)}{\chi^2(n - p + 1)}\),其中分子分母相互独立; 2. \(\frac{n - p + 1}{np}T_p^2(n) \stackrel{d}{=} \frac{\chi^2(p)/p}{\chi^2(n - p + 1)/(n - p + 1)} \stackrel{d}{\sim} F(p,(n - p + 1))\)
因此有: \[ T^2 = (n - 1)(\sqrt{n}(\bar{X} - \mu))'V^{-1}(\sqrt{n}(\bar{X} - \mu)) \stackrel{d}{\rightarrow} T_p^2(n - 1)\\ \frac{1}{n - 1}T^2 = n(\bar{X} - \mu)'V^{-1}(\bar{X} - \mu) \stackrel{d}{\rightarrow} \frac{\chi^2(p)}{\chi^2(n-p)}\\ \frac{n - p}{(n - 1)p}T^2 \stackrel{d}{\rightarrow} \frac{\chi^2(p)/p}{\chi^2(n - p)/(n - p)} \stackrel{d}{\rightarrow} F(p, n - p) \] 则当\(\boldsymbol{\Sigma}\)未知时,\(\boldsymbol{\mu}\)的水平为\((1 - \alpha)\)的置信域估计为 : \[ D = \left\{\boldsymbol{\mu} \in \mathbb{R}^p : \frac{n(n - p)}{p}(\bar{X} - \boldsymbol{\mu})'V^{-1}(\bar{X} - \boldsymbol{\mu}) \leq F_{1 - \alpha}(p, n - p)\right\} \] 即有 ${ D} = 1 - . $
PS: 因为这个置信域D是一个二次型,那么上述的不等式就是对这个二次型的约束,所以,这个置信域是一个超椭球。
- 协方差矩阵 \(V\)的逆 \(V^{-1}\)定义了椭球的方向和形状,特征值决定了每个方向上的伸缩因子。
- \(F\)分布的临界值 \(F_{1-\alpha}(p, n-p)\)确定了超椭球的大小。
B.两总体
设独立总体\(X \stackrel{d}{\sim} N_p(\boldsymbol{\mu}_1, \boldsymbol{\Sigma})\),\(Y \stackrel{d}{\sim} N_p(\boldsymbol{\mu}_2, \boldsymbol{\Sigma})\),\(\boldsymbol{\mu}_1, \boldsymbol{\mu}_2 \in \mathbb{R}^p\),\(\boldsymbol{\Sigma}>0\)。 (属于同一维度空间,但分布不同。)
记 \(\mathbf{X} = (X_1, \cdots, X_m)\),\(\mathbf{Y} = (Y_1, \cdots, Y_n)\)分别为来自总体\(X\)和\(Y\)的样本,\(\min\{m, n\} > p\)。 我们要构造总体均值差\(\boldsymbol{\delta} = \boldsymbol{\mu}_1 - \boldsymbol{\mu}_2\)的置信域估计。
已知:
已知条件 | 对应公式 |
---|---|
样本X的样本离差阵和协方差矩阵 | \(V_1=\sum^n_{i=1}(x_i-\bar x)(x_i-\bar x)',S_1=\frac1{n-1}V_1\) |
样本Y的样本离差阵和协方差矩阵 | \(V_2=\sum^n_{i=1}(y_i-\bar y)(y_i-\bar y)',S_2=\frac1{n-1}V_2\) |
我们下面讨论的问题是:
- \(\Sigma_1=\Sigma_2=\Sigma\): ①\(\Sigma\)未知,②\(\Sigma\)已知
- \(\Sigma_1\neq\Sigma_2\)(这种情况在本课程中不涉及,下面也不会涉及)
因此下面对于\(\Sigma\)未知、\(\Sigma\)已知的考虑的前提是\(\Sigma_1=\Sigma_2=\Sigma\).
\(\Sigma\)已知
由\(\bar{X} \stackrel{d}{\sim} N_p(\boldsymbol{\mu}_1, \boldsymbol{\Sigma}/m)\),\(\bar{Y} \stackrel{d}{\sim} N_p(\boldsymbol{\mu}_2, \boldsymbol{\Sigma}/n)\),有: \[ (\bar X-\bar Y)\overset{d}{\sim}N_p(\delta,(\frac1m+\frac1n)\Sigma)=N_p(\delta,\frac{mn}{m + n}\Sigma) \]
根据二次型的性质:\(X\sim N_p(\mu,\Sigma),\Sigma>0\),假设有个p阶方阵 \(A\ge0\),则有\((X-\mu)'A(X-\mu)\sim\chi^2_m,m=tr(A\Sigma)\). 当\(A=\Sigma^{-1}\)时, \((X-\mu)'A(X-\mu)\sim\chi^2_p\).
\[ \frac{mn}{m + n}((\bar{X} - \bar{Y}) - \delta)'\Sigma^{-1}((\bar{X} - \bar{Y}) - \delta) \stackrel{d}{\rightarrow} \chi^2(p) \]
由此得到\(\delta\)的水平为\((1 - \alpha)\)的置信域估计为: \[ D = \left\{\delta \in \mathbb{R}^p : \frac{mn}{m + n}((\bar{X} - \bar{Y}) - \delta)'\Sigma^{-1}((\bar{X} - \bar{Y}) - \delta) \leq \chi^2_{1 - \alpha}(p)\right\}. \]
\(\Sigma\)未知
记\(V_X\)和\(V_Y\)分别为总体\(X\)和\(Y\)的样本离差阵。
由\(X\)和\(Y\)的联合密度函数: \[ \begin{align} &(2\pi)^{-(m + n)p/2}|\boldsymbol{\Sigma}|^{-(m + n)/2} \cdot \\ &\exp\left\{-\frac{1}{2}\text{tr}[\boldsymbol{\Sigma}^{-1}(V_X + V_Y + m(\bar{X}-\boldsymbol{\mu}_1)(\bar{X}-\boldsymbol{\mu}_1)' + n(\bar{Y}-\boldsymbol{\mu}_2)(\bar{Y}-\boldsymbol{\mu}_2)')]\right\} \end{align} \] 知\((\boldsymbol{\mu}_1,\boldsymbol{\mu}_2,\boldsymbol{\Sigma})\)的极大似然估计为\((\bar{X},\bar{Y},(V_X + V_Y)/(m + n))\)。
记\(V = V_X + V_Y\),并令 : \[ T^2 = \frac{mn(m + n - 2)}{m + n}((\bar{X}-\bar{Y})-\boldsymbol{\delta})'V^{-1}((\bar{X}-\bar{Y})-\boldsymbol{\delta}) \] 由于\((\bar{X}-\bar{Y})\)与\(V\)相互独立,且 \[ \sqrt{\frac{mn}{m + n}}((\bar{X}-\bar{Y})-\boldsymbol{\delta}) \stackrel{d}{\rightarrow} N_p(0,\boldsymbol{\Sigma}), \quad V \stackrel{d}{\rightarrow} W_p(m + n - 2,\boldsymbol{\Sigma})\\ T^2 \stackrel{d}{\rightarrow} T_p^2(m + n - 2) \] 进而可知 \[ \begin{align} &\frac{m + n - p - 1}{(m + n - 2)p}T^2 \\ &= \frac{(m + n - p - 1)mn}{(m + n)(m + n - 2)p}((\bar{X}-\bar{Y})-\boldsymbol{\delta})'V^{-1}((\bar{X}-\bar{Y})-\boldsymbol{\delta}) \\ &\stackrel{d}{\sim} F(p,m + n - p - 1) \end{align} \] 由此得到\(\boldsymbol{\delta}\)的水平为\((1 - \alpha)\)的置信域估计为 \[ D = \left\{ \boldsymbol{\delta} \in \mathbb{R}^p :\begin{align} \frac{(m + n - p - 1)mn}{(m + n)p}((\bar{X} - \bar{Y}) - \boldsymbol{\delta})'V^{-1}((\bar{X} - \bar{Y}) - \boldsymbol{\delta})\\ \leq F_{1 - \alpha}(p, m + n - p - 1)\end{align} \right\} \]
3.3 多元正态分布的检验
本质上就是求似然比、知道一般形式、原则。
考,但是不会考复杂的。最多找一个非常简单的东西写一个似然比。
多元正态分布的检验问题包括:
单总体 | 多总体 | 多变量 |
---|---|---|
均值检验 | 均值比较检验 | 独立性检验 |
协方差检验 | 协方差比较检验 | 条件独立性检验 |
--- | 均值和协方差同时比较检验 | --- |
3.3.0 均值向量的改进估计
总体均值向量\(\mu\)的极大似然估计\(\hat \mu =\bar x\), 定义用\(\bar x\)估计\(\mu\)的损失函数为\(L(\bar x,\mu)\ge0\).
- \(L(\bar x,\mu)>0\):取值越大,表示\(\bar x\)离\(\mu\)的距离越来越远,损失越来越大。
- \(L(\bar x,\mu)=0\):用\(\bar x\)估计\(\mu\)没有损失。
实际问题中,对于均值向量\(\mu\)的估计,希望找到一个对于所有的\((\mu,\Sigma)\), 几乎处处使得风险函数=0的估计。但是实际上这样的估计通常是不存在的,因此我们退而求其次,希望找到一个估计\(\hat \mu\), 使得其风险函数小于\(\bar x\)的风险,或者不比\(\bar x\)的风险大。这就是改进估计。
\(\Sigma\)已知
令\(\bar x=(\bar x_1,\dots,\bar x_p)',\mu=(\mu_1,\dots,\mu_p)'\), 平方和损失函数定义为: \[ L(\bar x,\mu)=\sum^n_{i=1}(\bar x_i-\mu_i)'(\bar x_i-\mu_i)=(\bar x-\mu)'(\bar x-\mu) \] 一个好的估计希望平方损失越小越好,在统计决策理论中,损失函数的平均值称为风险函数。\(\bar x\)作为\(\mu\)的估计,它在平方和损失函数下的风险函数为: \[ \begin{align} R(\bar x)&=E[L(\bar x,\mu)]=E[(\bar x-\mu)'(\bar x-\mu)]\\ &=tr\left\{E[(\bar x-\mu)'(\bar x-\mu)]\right\}\\ &=\frac{tr(\Sigma)}{n}\\ \end{align} \] \(\bar x\)的风险函数\(R(\bar x)\)只依赖于\(\Sigma\),与\(\mu\)无关。
- 当p=1,2时:在平方和损失函数下,样本均值\(\bar x\)是总体均值\(\mu\)的容许估计,改进不存在。
- 当p$\(3时:样本均值\)x\(是总体均值\)$的不容许估计。
极大似然估计:
设\(X=(x_1,\dots,x_n)'\)是来自多元正态总体\(X\sim N_p(\mu,\Sigma)\)的样本,其中\(n>p,\mu\in\mathbb{R}^p,\Sigma>0\). \[ \begin{align*} L(\mu,\Sigma)&=\prod^n_{i=1}\frac{1}{(2\pi)^{\frac p 2}|\Sigma|^{\frac 1 2}}\exp[-\frac 1 2 (x_i-\mu)'\Sigma^{-1}(x_i-\mu)]\\ &=\frac{1}{(2\pi)^{np/2}|\Sigma|^{n/2}}\exp\left[-\frac{1}{2}\sum_{i = 1}^{n}(x_{i}-\mu)'\Sigma^{-1}(x_{i}-\mu)\right]\\ &=\frac{1}{(2\pi)^{np/2}|\Sigma|^{n/2}}\exp\left[-\frac{1}{2}\text{tr}\left(\Sigma^{-1}\left\{\sum_{i = 1}^{n}(x_{i}-\mu)(x_{i}-\mu)'\right\}\right)\right]\\ &=\frac{1}{(2\pi)^{np/2}|\Sigma|^{n/2}}\exp\left[-\frac{1}{2}\text{tr}\left(\Sigma^{-1}\{V + n(\bar{x}-\mu)(\bar{x}-\mu)'\}\right)\right] \end{align*} \] 首先给定 \(\Sigma>0\) 时,求 \(\mu\) 的极大似然估计,即求对数似然函数 \(\ln L(\mu,\Sigma)\) 的极大值点。由式(5.3),给定 \(\Sigma>0\),关于 \(\mu\) 的对数似然函数为 \[ \begin{align*} \ln L(\mu,\Sigma)&=-\frac{n}{p}\ln2\pi-\frac{n}{2}\ln|\Sigma|-\frac{1}{2}\text{tr}(\Sigma^{-1}\{V + n(\bar{x}-\mu)(\bar{x}-\mu)'\})\\ &=-\frac{n}{p}\ln2\pi-\frac{n}{2}\ln|\Sigma|-\text{tr}(\Sigma^{-1}V)-\frac{n}{2}(\bar{x}-\mu)'\Sigma^{-1}(\bar{x}-\mu)\\ &\leq-\frac{n}{p}\ln2\pi-\frac{n}{2}\ln|\Sigma|-\text{tr}(\Sigma^{-1}V) \end{align*} \] 上式不等式中等号成立当且仅当 \(\mu = \bar{x}\)。因此,总体均值向量 \(\mu\) 的极大似然估计为样本均值向量 \(\bar{x}\)。由\(E(\bar{x})=\mu\),因此,样本均值向量 \(\bar{x}\) 是 \(\mu\) 的无偏估计。 将上式中的 \(\mu\) 用它的极大似然估计 \(\bar{x}\) 替换,得到 \(\Sigma\) 的似然函数为: \[ L(\bar{x},\Sigma)=\frac{(2\pi)^{np/2}}{|\Sigma|^{n/2}}\exp\left[-\frac{1}{2}\text{tr}(\Sigma^{-1}V)\right] \] 令 \(\Sigma^{-1/2}V\Sigma^{-1/2}=UAU'\),其中 \(U\) 是正交矩阵,\(\Lambda=\text{diag}(\lambda_1,\cdots,\lambda_p)\) 是对角矩阵,则上式可以简化为 \[ L(\bar{x},\Sigma)=\frac{1}{(2\pi)^{np/2}|V|^{n/2}}\prod_{k = 1}^{p}\left[\lambda_k^{n/2}\exp\left\{-\frac{\lambda_k}{2}\right\}\right] \] 由于 \(f(x)=x^{n/2}\exp\{-x/2\}\) 在 \(x = n\) 处取最大值,所以上式在 \(\lambda_1=\cdots=\lambda_p=n\) 时取最大值,从而可知,\(\Sigma\) 的极大似然估计 \(\hat{\Sigma}\) 满足条件 \(\hat{\Sigma}^{-1/2}V\hat{\Sigma}^{-1/2}=nI_p\)。由此可见,\(\Sigma\) 的极大似然估计为 \(\hat{\Sigma}=V/n\)。
定理5.1.2 设 \(x_i=(x_{i1},\cdots,x_{ip})'(i = 1,\cdots,n)\) 为来自 \(p\) 元正态总体 \(N_p(\mu,\Sigma)\) 的一组随机样本,\(n>p\),\(\bar{x}\) 为样本均值向量,\(V\) 为样本离差阵,则 \(\mu\) 和 \(\Sigma\) 的极大似然估计分别为 \(\hat{\mu}=\bar{x}\) 和 \(\hat{\Sigma}=V/n\)。
3.3.1 单总体均值检验
设\(\mathbf{X}=(x_1,x_2,\cdots,x_n)\)是来自多元正态总体\(N_p(\boldsymbol{\mu},\boldsymbol{\Sigma})\)的\(n\)个独立样本,其中\(\boldsymbol{\mu}\in\mathbb{R}^p\),\(\boldsymbol{\Sigma}>0\),\(n>p\)。 我们关心如下总体均值\(\boldsymbol{\mu}\)的检验问题: \[ H_0:\boldsymbol{\mu}=\boldsymbol{\mu}_0,\quad v.s.\quad H_1:\boldsymbol{\mu}\neq\boldsymbol{\mu}_0 \] 记\(\bar{\mathbf{x}}\)和\(V\)分别是样本均值和样本离差阵。
似然比检验方法
假设我们有一个统计模型,参数空间为\(\Theta\), 其中包含了所有可能的参数值。检验问题通常表述为: \[ H_0:\theta\in\Theta_0,\quad v.s.\quad H_1:\theta\in\Theta_1=\Theta\backslash\Theta_0 \] \(H_0\)表述为参数\(\theta\)属于一个特定的子集\(\Theta_0\), \(H_1\)表述为参数\(\theta\)不属于原假设所定义的子集\(\Theta_0\), 即属于\(\Theta\)中除\(\Theta_0\)之外的所有可能值。符号 表示集合的差集运算。
记样本\(X\)下的似然函数为\(L(\theta|X) = f(X|\theta)\)。 似然比定义为在原假设 \(H_0\) 下,似然函数的最大值与在整个参数空间 \(\Theta\) 下的似然函数最大值之比。 \[ \lambda=\frac{\sup_{\theta\in\Theta_0}L(\theta|X)}{\sup_{\theta\in\Theta}L(\theta|X)} \] 此处写的是上确界(所有上界中最小的一个),即使\(L(\theta|x)\)没有最大元素,但上确界仍然存在 ,这是sup与max的区别。
似然比检验统计量为 : \[ T=-2\ln(\lambda)=-2\ln\frac{\sup_{\theta\in\Theta_0}L(\theta|X)}{\sup_{\theta\in\Theta}L(\theta|X)} \] 可以通过\(T\)在零假设\(H_0\)下的分布(零分布)构造检验的拒绝域。
(1) \(\boldsymbol{\Sigma}\)已知的情形
均值参数\(\boldsymbol{\mu}\)的似然比 \[ \begin{align} L(\bar{x},\Sigma)&=\frac{1}{(2\pi)^{np/2}|\Sigma|^{n/2}}\exp\left[-\frac{1}{2}\text{tr}\left(\Sigma^{-1}\{V + n(\bar{x}-\mu)(\bar{x}-\mu)'\}\right)\right]\\\\ \lambda&=\frac{\sup_{\theta\in\Theta_0}L(\theta|X)}{\sup_{\theta\in\Theta}L(\theta|X)}\\ &=\frac{\exp\left\{-\frac 1 2\text{tr}(\boldsymbol{\Sigma}^{-1}(n(\bar{\mathbf{x}}-\boldsymbol{\mu}_0)(\bar{\mathbf{x}}-\boldsymbol{\mu}_0)'))\right\}}{\sup_{\boldsymbol{\mu}\in\mathbb{R}^p}\left[\exp\left\{-\frac 1 2\text{tr}(\boldsymbol{\Sigma}^{-1}(n(\bar{\mathbf{x}}-\boldsymbol{\mu})(\bar{\mathbf{x}}-\boldsymbol{\mu})'))\right\}\right]} \\ &=\frac{\exp\left\{-\frac 1 2n(\bar{\mathbf{x}}-\boldsymbol{\mu}_0)'\boldsymbol{\Sigma}^{-1}(\bar{\mathbf{x}}-\boldsymbol{\mu}_0)\right\}}{\sup_{\boldsymbol{\mu}\in\mathbb{R}^p}\left[\exp\left\{-\frac 1 2n(\bar{\mathbf{x}}-\boldsymbol{\mu})'\boldsymbol{\Sigma}^{-1}(\bar{\mathbf{x}}-\boldsymbol{\mu})\right\}\right]}\\ &=\frac{\exp\left\{-\frac 1 2 n(\bar{\mathbf{x}}-\boldsymbol{\mu}_0)'\boldsymbol{\Sigma}^{-1}(\bar{\mathbf{x}}-\boldsymbol{\mu}_0)\right\}}{\exp\left\{-\frac 1 2 n(\bar{\mathbf{x}}-\boldsymbol{\hat\mu})'\boldsymbol{\Sigma}^{-1}(\bar{\mathbf{x}}-\boldsymbol{\hat\mu})\right\}},\quad\hat\mu=\bar x\\ & =\exp\left\{-\frac 1 2n(\bar{\mathbf{x}}-\boldsymbol{\mu}_0)'\boldsymbol{\Sigma}^{-1}(\bar{\mathbf{x}}-\boldsymbol{\mu}_0)\right\} \end{align} \] 因此似然比检验统计量为 \[ T = - 2\ln(\lambda)=n(\bar{\mathbf{x}}-\boldsymbol{\mu}_0)'\boldsymbol{\Sigma}^{-1}(\bar{\mathbf{x}}-\boldsymbol{\mu}_0) \] 故当\(T>\chi^2_{1-\alpha}(p)\)时拒绝零假设,其犯第一类错误的概率为\(\alpha\)。
(2) \(\boldsymbol{\Sigma}\)未知的情形
记\(V_0=\sum_{i = 1}^{n}(x_{i}-\boldsymbol{\mu}_0)(x_{i}-\boldsymbol{\mu}_0)'=V+n(\bar x-\mu_0)'(\bar x-\mu_0)\) 参数\(\boldsymbol{\mu}\)的似然比为 (\(\Sigma =\frac1{n-1}V\)): \[ \begin{align} \lambda&=\frac{\sup_{\boldsymbol{\Sigma}}\left[|\boldsymbol{\Sigma}|^{-n/2}\exp\left\{-\frac 1 2\text{tr}(\boldsymbol{\Sigma}^{-1}(V + n(\bar{\mathbf{x}}-\boldsymbol{\mu}_0)(\bar{\mathbf{x}}-\boldsymbol{\mu}_0)'))\right\}\right]}{\sup_{\{\boldsymbol{\mu},\boldsymbol{\Sigma}\}}\left[|\boldsymbol{\Sigma}|^{-n/2}\exp\left\{-\frac 1 2\text{tr}(\boldsymbol{\Sigma}^{-1}(V + n(\bar{\mathbf{x}}-\boldsymbol{\mu})(\bar{\mathbf{x}}-\boldsymbol{\mu})'))\right\}\right]}\\ &=\frac{\sup_{\boldsymbol{\Sigma}}\left[|\boldsymbol{\Sigma}|^{-n/2}\exp\left\{-\frac 1 2\text{tr}(\boldsymbol{\Sigma}^{-1}V_0)\right\}\right]}{\sup_{\{\boldsymbol{\mu},\boldsymbol{\Sigma}\}}\left[|\boldsymbol{\Sigma}|^{-n/2}\exp\left\{-\frac 1 2\text{tr}(\boldsymbol{\Sigma}^{-1}(V + n(\bar{\mathbf{x}}-\boldsymbol{\mu})(\bar{\mathbf{x}}-\boldsymbol{\mu})'))\right\}\right]} \\ &=\frac{|\boldsymbol{\hat\Sigma_0}|^{-n/2}\exp\left\{-\frac 1 2\text{tr}(\boldsymbol{\hat\Sigma_0}^{-1}V_0)\right\}}{|\boldsymbol{\hat\Sigma}|^{-n/2}\exp\left\{-\frac 1 2\text{tr}(\boldsymbol{\hat\Sigma}^{-1}(V + n(\bar{\mathbf{x}}-\boldsymbol{\hat\mu})(\bar{\mathbf{x}}-\boldsymbol{\hat\mu})'))\right\}} \\ \end{align} \] 其中\(\hat\Sigma_0\)是原假设\(H_0\)为真时:\(\mu=\mu_0,\Sigma>0\)时的极大似然估计。 \[ \hat\Sigma_0=\frac1n\sum^n_{i=1}(x_i-\mu_0)(x_i-\mu_0)' \] 分母中的\(\hat\mu,\hat\Sigma\)是当\(\mu\in\mathbb{R}^p,\Sigma>0\)时,\(\mu,\Sigma\)的极大似然估计。 \[ \hat \mu=\bar x\\ \hat\Sigma=\frac 1 n \sum^n_{i=1}(x_i-\bar x) (x_i-\bar x)'=\frac V n \] 继续计算\(\lambda\), 分母后面的exp因为\(\hat \mu=\bar x\)所以等于0,\(e^0=1\);且\(\hat\Sigma_0=\frac{V_0}n\)有: $$ \[\begin{align} \lambda&=\frac{|\frac{V_0}n|^{-n/2}e^{-\frac {np} 2}}{\left|\frac V n\right|^{-n/2}},\quad e^{-\frac {np} 2}常数项忽略\\ &=\frac{\left|V_0\right|^{-n/2}}{\left|V\right|^{-n/2}}\\ &=\left(\frac{\left|V\right| + n(\bar{\mathbf{x}}-\boldsymbol{\mu}_0)(\bar{\mathbf{x}}-\boldsymbol{\mu}_0)'}{\left|V\right|}\right)^{-n/2} \\ &=\left|I_p + nV^{-1/2}(\bar{\mathbf{x}}-\boldsymbol{\mu}_0)(\bar{\mathbf{x}}-\boldsymbol{\mu}_0)'V^{-1/2}\right|^{-n/2}\\ &=(1 + n(\bar{\mathbf{x}}-\boldsymbol{\mu}_0)'V^{-1}(\bar{\mathbf{x}}-\boldsymbol{\mu}_0))^{-n/2} \end{align}\] \[ 利用似然比原理,在$\lambda$较小时拒绝原假设$H_0: \mu=\mu_0$, 从而认为备择假设成立$H_1$. 当原假设$H_0: \mu=\mu_0$成立时,由$n(n-1)(\bar x-\mu_0)'V^{-1}(\bar x-\mu_0)\sim T^2_p(n-1)$, 所以通常取: \] T^{2}=n(n - 1)({x}-{0})'V{-1}({x}-{0})=n({x}-{0})'S{-1}({x}-{0}) $$ 为检验统计量。并在\(T^2\)较大时拒绝原假设\(H_0\), 从而认为备择假设\(H_1\)成立。
根据Hotelling \(T^2\)分布的性质有: \[ T^{2} \stackrel{d}{\rightarrow} T_{p}^{2}(n - 1)\\ \frac{n - p}{(n - 1)p}T^{2} \stackrel{d}{\rightarrow} F(p, n - p) \] 则当\(\frac{n - p}{(n - 1)p}T^{2}>F_{1-\alpha}(p, n - p)\)时拒绝零假设,其犯第一类错误的概率为\(\alpha\)。
检验的p值为: \[ p_v=Pr(F_{p,n-p}\ge\frac{n-p}{(n-1)p}T^2) \]
栗子(检验单总体、两总体均值)
(1): 在正态假设下,哥特式教堂的长度和中殿长度是否与罗马式教堂具有相同的均值?
计算哥特式教堂数据的\(\bar x,V\): \[ \bar x=\begin{pmatrix}121.12\\22.84\end{pmatrix},V=\begin{pmatrix}19466.70& 2257.90\\2257.90& 469.56\end{pmatrix} \] n=16,p=2, \(H_0:\mu=\mu_0,\quad v.s.\quad H_1:\mu\neq\mu_0,\quad \mu_0=\begin{pmatrix}145.29\\22.69\end{pmatrix}\), \(\Sigma\)未知。 \[ T^2=n(n-1)(\bar X-\mu_0)'V^{-1}(\bar X-\mu_0)=17.283\\ \] 设定显著性水平为\(\alpha=0.05\), 计算检验的p值: \[ \begin{align} p_v&=Pr(F_{p,n-p}\ge\frac{n-p}{(n-1)p}T^2)\\ &=Pr(F(2,14)\ge8.0654)\\ &=0.0047\\ &<0.05 \end{align} \] 结论:故拒绝零假设,\(\mu\neq\mu_0\), 认为哥特式教堂和罗马式教堂没有相同的长度和中殿高度。
(2): 哥特式教堂的长度与罗马式教堂长度是否具有相同的均值?
这实际上是一个单总体正态分布检测。哥特式教堂的样本协方差阵: \[ S=\frac{V}{n-1}=\begin{pmatrix}19466.70/15& 2257.90/15\\2257.90/15& 469.56/15\end{pmatrix}=\begin{pmatrix}12977.78& 150.53\\150.53& 31.3\end{pmatrix}=\begin{pmatrix}s_{11}&s_{12}\\s_{21}&s_{22}\end{pmatrix} \] t-检验与检验的p值: $$ t_1=n =4 =-2.648\\
p=Pr{|t(15)||t_1|}=2Pr(t(15))=0.017 $$ 总结:\(p\le\alpha\)因此认为哥特式教堂的长度与罗马式教堂长度没有相同均值。
(3): 哥特式教堂的中殿高度与罗马式教堂的中殿高度是否具有相同的均值? \[ t_2=\sqrt n\frac{\bar X_2-22.69}{\sqrt{s_{22}}}=4\times\frac{22.84-22.69}{\sqrt{31.3}}=0.107\\\\ p=Pr\left\{|t(15)|\ge|t_2|\right\}=2Pr(t(15)\ge 0.107)=0.916\gt 0.05 \] 总结:\(p\gt\alpha\)因此认为哥特式教堂的中殿高度与罗马式教堂的中殿高度具有相同的均值.
两种教堂长度和中殿高度的比较问题(例1续)
如果设定 \(\mu_0^*=\begin{pmatrix}131\\21\end{pmatrix}\)。 考虑如下的协方差阵 \(\Sigma\) 未知时的均值检验问题: \[ H_0:\mu = \mu_0^*,\quad v.s.\quad H_1:\mu\neq\mu_0^* \] 此时Hotelling\(T^2\) 检验统计量、计算的p值为 : \[ T^2=n(n - 1)(\bar{X}-\mu_0^*)'V^{-1}(\bar{X}-\mu_0^*) = 11.507\\\\ p=P\left\{F(p,n - p)\geq\frac{n - p}{(n - 1)p}T^2\right\} =P\left\{F(2,14)\geq5.370\right\}=0.019 \] 结论:拒绝零假设。
1') 哥特式教堂的长度与罗马式教堂长度是否有相同均值的t - 检验、p值: \[ t_1^*=\sqrt{n}\cdot\frac{\bar{X}_1 - 131}{\sqrt{S_{11}^*}}=\sqrt{16}\cdot\frac{121.12 - 131}{\sqrt{1297.78}}=-1.097\\\\ p = P_r\{|t(15)|\geq|t_1^*|\}=2P_r\{t(15)\leq - 1.097\}=0.290>0.05 \] 结论:因此认为哥特式教堂的长度与罗马式教堂长度有相同均值。
2') 哥特式教堂的中殿高度与罗马式教堂的中殿高度是否有相同均值的t - 检验、p值: \[ t_2^*=\sqrt{n}\cdot\frac{\bar{X}_2 - 21}{\sqrt{S_{22}^*}}=\sqrt{16}\cdot\frac{22.84 - 21}{\sqrt{31.30}}=1.315\\\\ p = P_r\{|t(15)|\geq|t_2^*|\}=2P_r\{t(15)\geq1.315\}=0.208>0.05 \] 结论:因此认为哥特式教堂的中殿高度与罗马式教堂的中殿高度有相同的均值。
3.3.2 两个多元总体均值比较的检验
记 \(X=(x_1,\cdots,x_m)\) 和 \(Y=(y_1,\cdots,y_n)\) 分别为来自总体 \(N_p(\mu_1,\Sigma)\) 和 \(N_p(\mu_2,\Sigma)\) 的独立样本,\(\mu_1,\mu_2\in R^p\),\(\Sigma>0\),\(\min(m,n)>p\)。
两个总体均值是否相等的检验问题为: \[ H_0:\mu_1 = \mu_2,\quad v.s.\quad H_1:\mu_1\neq\mu_2 \] 注意:此时两个总体的协方差阵相等。 记 \(\bar{x}\) 和 \(\bar{y}\) 分别为总体 \(X\) 和 \(Y\) 的样本均值。
(1) \(\Sigma\) 已知的情形
\((\mu_1,\mu_2)\) 的似然函数为(去掉常数项): \[ L(\mu_1,\mu_2)=\exp\left\{-\frac{1}{2}[m(\bar{x}-\mu_1)'\Sigma^{-1}(\bar{x}-\mu_1)+n(\bar{y}-\mu_2)'\Sigma^{-1}(\bar{y}-\mu_2)]\right\}\\ \hat{\mu}_0=\frac{m\bar{x}+n\bar{y}}{m + n}=\frac{\sum_{i = 1}^{m}x_i+\sum_{j = 1}^{n}y_j}{m + n} \] 当 \(\mu_1=\mu_2=\mu\) 时,\(\mu\) 的极大似然估计是 \(\hat{\mu}_0\)。
检验问题的似然比为: \[ \begin{align} \lambda&=\frac{\sup_{\mu}L(\mu,\mu)}{\sup_{\{\mu_1,\mu_2\}}L(\mu_1,\mu_2)}\\ &=\exp\left\{-\frac{1}{2}[m(\bar{x}-\hat{\mu}_0)'\Sigma^{-1}(\bar{x}-\hat{\mu}_0)+n(\bar{y}-\hat{\mu}_0)'\Sigma^{-1}(\bar{y}-\hat{\mu}_0)]\right\}\\ &=\exp\left\{-\frac{1}{2}\left[\frac{mn}{m + n}(\bar{x}-\bar{y})'\Sigma^{-1}(\bar{x}-\bar{y})\right]\right\} \end{align} \]
\[ m(\bar{x}-\hat{\mu}_0)'\Sigma^{-1}(\bar{x}-\hat{\mu}_0)+n(\bar{y}-\hat{\mu}_0)'\Sigma^{-1}(\bar{y}-\hat{\mu}_0)=\frac{mn}{m + n}(\bar{x}-\bar{y})'\Sigma^{-1}(\bar{x}-\bar{y}) \]
则检验比检验统计量为: \[ T=-2\log(\lambda)=\frac{mn}{m + n}(\bar{x}-\bar{y})'\Sigma^{-1}(\bar{x}-\bar{y})\vert_{H_0}\stackrel{d}{\sim}\chi^2(p) \] 当 \(T>\chi^2_{1-\alpha}(p)\) 时拒绝零假设,其犯第一类错误的概率为 \(\alpha\)。
(2) \(\Sigma\) 未知的情形
记\(V_X\)和\(V_Y\)分别为总体\(X\)和\(Y\)的样本离差阵,\(V = V_X+V_Y\)。
\((\mu_1,\mu_2,\Sigma)\) 的似然函数为: \[ L(\mu_1,\mu_2,\Sigma)=\frac{1}{\vert\Sigma\vert^{\frac{(m + n)}2}} \exp\left\{-\frac{1}{2}\text{tr}[\Sigma^{-1}(V + m(\bar{x}-\mu_1)(\bar{x}-\mu_1)' + n(\bar{y}-\mu_2)(\bar{y}-\mu_2)')]\right\} \] 当\(\mu_1,\,u_2\in\mathbb{R}^p,\Sigma>0\)时,\(\mu_1\)和\(\mu_2\)的极大似然估计分别为:\(\hat\mu_1=\bar x,\hat\mu_2=\bar y\),\(\Sigma\)的极大似然估计为\(\hat\Sigma={V_1+V_2}/{(n+m)}\).在原假设\(H_0\)成立时(\(\mu_1=\mu_2=\mu\)),\(\mu\)的极大似然估计为\(\hat\mu_0=(n\bar x+m\bar y)/(n+m)\). 在原假设\(H_0\)成立时,将似然函数\(L(\mu_1,\mu_2,\Sigma)\)中的均值向量\(\mu_1=\mu_2=\hat\mu_0\), 从而得到原假设\(H_0\)成立时的\(\Sigma\)的似然函数为: \[ \begin{align} L(\Sigma)&=\frac{1}{\vert\Sigma\vert^{\frac{(m + n)}2}} \exp\left\{-\frac{1}{2}\text{tr}[\Sigma^{-1}(V_1+V_2 + m(\bar{x}-\hat\mu_0)(\bar{x}-\hat\mu_0)' + n(\bar{y}-\hat\mu_0)(\bar{y}-\hat\mu_0)')]\right\}\\ \hat \Sigma_0&=\frac{V_1+V_2 + m(\bar{x}-\hat\mu_0)(\bar{x}-\hat\mu_0)'+ n(\bar{y}-\hat\mu_0)(\bar{y}-\hat\mu_0)'}{m+n}\\ \hat \Sigma_0&=\frac{V_1+V_2 + \frac{mn}{m + n}(\bar{x}-\bar{y})(\bar{x}-\bar{y})'}{m+n} \end{align} \]
\[ \because m(\bar{x}-\hat{\mu}_0)'\Sigma^{-1}(\bar{x}-\hat{\mu}_0)+n(\bar{y}-\hat{\mu}_0)'\Sigma^{-1}(\bar{y}-\hat{\mu}_0)=\frac{mn}{m + n}(\bar{x}-\bar{y})'\Sigma^{-1}(\bar{x}-\bar{y})\\ \therefore m(\bar{x}-\hat\mu_0)(\bar{x}-\hat\mu_0)'+ n(\bar{y}-\hat\mu_0)(\bar{y}-\hat\mu_0)'= \frac{mn}{m + n}(\bar{x}-\bar{y})(\bar{x}-\bar{y})' \]
检验问题的似然比为: \[ \begin{align} \lambda&=\frac{\sup_{\{\mu,\Sigma\}}L(\mu,\mu,\Sigma)}{\sup_{\{\mu_1,\mu_2,\Sigma\}}L(\mu_1,\mu_2,\Sigma)}\\ &=\left(\frac{\vert V_1+V_2 + \frac{mn}{(m + n)}(\bar{x}-\bar{y})(\bar{x}-\bar{y})'\vert}{\vert V_1+V_2\vert}\right)^{-(m + n)/2}\\ &=\vert I_p+\frac{mn}{m+n}(V_1+V_2)^{-\frac 1 2}(\bar{x}-\bar{y})(\bar{x}-\bar{y})'(V_1+V_2)^{-\frac 1 2}\vert^{-(m + n)/2}\\ &=\left(1+\frac{mn}{m + n}(\bar{x}-\bar{y})'(V_1+V_2)^{-1}(\bar{x}-\bar{y})\right)^{-(m + n)/2} \end{align} \] 令 : \[ T^2=\frac{mn(m + n - 2)}{m + n}(\bar{x}-\bar{y})'(V_1+V_2)^{-1}(\bar{x}-\bar{y})\\\\ T^2\vert_{H_0}\stackrel{d}{\sim}T^2_p(m + n - 2) \] 取\(T^2\)为检验统计量,在原假设\(H_0\)为真(\(\mu_1=\mu_2\))时,\(T^2\stackrel{d}{\sim}T^2_p(m + n - 2)\), 且在\(T^2\)较大时拒绝原假设\(H_0\), 从而认为备择假设\(H_1\)成立(\(\mu_1\neq\mu_2\)). 再根据Hotelling \(T^2\)分布的性质: \[ \frac{1}{(m + n - 2)}T^2_p(n+m-2)\overset{d}{=}\frac{\chi^2_p}{\chi^2_{m + n - p - 1}}\\ \frac{(m + n - p - 1)}{(m + n - 2)p}T^2\overset{d}{\sim}F(p,m + n - p - 1)\\ p_v=Pr\left( F_{1-\alpha}(p,m + n - p - 1)\ge\frac{(m + n - p - 1)}{(m + n - 2)p}T^2\right) \] 因此,当\(p<\alpha\) 时拒绝零假设, 其犯第一类错误的概率为 \(\alpha\)。
MLE小结
似然比检验统计量由似然函数在极大似然估计下的似然函数值决定。
相同协方差阵下正态总体均值和协方差阵的极大似然估计(MLE):
均值 | 协方差阵 |
---|---|
单总体:均值的极大似然估计为样本均值; | 计算在给定均值极大似然估计下协方差阵的似然函数: |
多总体:各总体均值无约束的极大似然估计为各自的样本均值; | \(\vert\Sigma\vert^{-n/2}\exp\{-\frac 1 2\text{tr}(\Sigma^{-1}W)\}\) |
多总体:在各总体均值相等的约束条件下,均值的极大似然估计为将所有样本看成是来自同一总体时的样本均值; | 其中\(W\)是仅与数据有关的正定矩阵,则协方差矩阵的极大似然估计\(\hat{\Sigma}=W/n\)。 |
Ch4 多元线性模型
不考的:(有些不太确定)
\(rank(X) = r < k\)广义逆
有约束的最小二乘基本定理
左乘:有约束化为无约束-线性假设检验
右乘:均值子集的线性假设
多元线性回归模型中参数估计、假设检验、选取变量
多元线性模型的均值置信域和预测域
4.1 多元线性模型
要清楚多元线性模型中的每一个参数都代表什么、考基于矩阵形式
知道最小二乘估计的形式
理论上的总体形式,一元线性模型的定义: \[ y = x'\beta+\epsilon \] 其中,\(\beta = (\beta_1,\cdots,\beta_k)'\in R^k\)是模型参数, \(\epsilon\)是随机误差,\(E(\epsilon|x) = 0\)。
而有了数据之后,可以写成矩阵的形式,估计它的最小二乘。 \[ Y = X\beta+\epsilon\\ \hat{\beta}=(X'X)^{-1}X'Y \] \(y\)与\(x\)的关系可表示为如下\(p\)个一元线性模型: \[ y_{(i)} = x'\beta_i+\epsilon_{(i)} \] \(1\leq i\leq p\), 其中,\(\beta_1,\cdots,\beta_p\in R^k\)是每个子线性模型的参数, \(\epsilon_{(i)}\)是每个因变量对应的随机误差,\(E(\epsilon_{(i)}|x) = 0\),\(1\leq i\leq p\)。
假设有\(n\)组观测\((x_1,y_1),\cdots,(x_n,y_n)\)。 记\(Y=(y_1,\cdots,y_n)'\),\(X=(x_1,\cdots,x_n)'\),\(e = (\epsilon_1,\cdots,\epsilon_n)'\)。
x 和 y 由向量转变为矩阵,原先只是在\(\mathbb{R}^k,\mathbb{R}^p\)空间,现在在\(\mathbb{R}^{nk},\mathbb{R}^{np}\)空间。
多元线性模型的定义如下: \[ Y = XB + e \] 其中:
- \(Y\)是\(n\times p\)阶观测的随机矩阵,\(n\geq p\);
- \(X\)是已知的\(n\times k\)阶设计矩阵,\(n\geq k\),\(rank(X)=r\leq k\); (3)
- 是\(k\times p\)阶的未知回归系数矩阵;
- \(e\)是\(n\times p\)阶不可观测的随机误差矩阵。
\[ \begin{align} Y&=\begin{pmatrix}y_{(11)}&y_{(12)}&\cdots&y_{(1p)}\\y_{(21)}&y_{(22)}&\cdots&y_{(2p)}\\\vdots&\vdots&\ddots&\vdots\\y_{(n1)}&y_{(n2)}&\cdots&y_{(np)}\end{pmatrix}=\begin{pmatrix}y_1'\\y_2'\\\vdots\\y_n'\end{pmatrix}=(Y_{(1)},\cdots,Y_{(p)})'\\ X&=\begin{pmatrix}x_{(11)}&x_{(12)}&\cdots&x_{(1k)}\\x_{(21)}&x_{(22)}&\cdots&x_{(2k)}\\\vdots&\vdots&\ddots&\vdots\\x_{(n1)}&x_{(n2)}&\cdots&x_{(nk)}\end{pmatrix}=\begin{pmatrix}x_1'\\x_2'\\\vdots\\x_n'\end{pmatrix}\\ e&=\begin{pmatrix}\epsilon_{(11)}&\epsilon_{(12)}&\cdots&\epsilon_{(1p)}\\\epsilon_{(21)}&\epsilon_{(22)}&\cdots&\epsilon_{(2p)}\\\vdots&\vdots&\ddots&\vdots\\\epsilon_{(n1)}&\epsilon_{(n2)}&\cdots&\epsilon_{(np)}\end{pmatrix}=\begin{pmatrix}\epsilon_1'\\\epsilon_2'\\\vdots\\\epsilon_n'\end{pmatrix}=(\epsilon_{(1)},\cdots,\epsilon_{(p)})' \end{align} \]
模型 \(Y = XB + e\) 化为 \(y_{(ij)} = x_i'\beta_j+\epsilon_{(ij)}\),\(1\leq i\leq n\),\(1\leq j\leq p\)。
我们假定\(\varepsilon\)服从正态分布,只在特别情况下会说明只假定一、二阶矩存在(有界)的情形。
Q: 一阶矩、二阶矩?
A: 矩(moment)是用来描述随机变量分布特性的数字量度。
- 一阶矩:均值、\(E[X]=\mu\)
- 二阶矩:方差、协方差:\(Var(X)=E[(X-E(X))^2], Cov(X,Y)=E[(X-E(X))(Y-E(Y))]\)
假设\(\varepsilon\sim N_{n\times p}(0,\Sigma\otimes I_n)\),其中误差协方差阵\(\Sigma\)是未知的\(p\)阶正定矩阵。 由\(e'=(\varepsilon_{1},\cdots,\varepsilon_{n})\),知\(\varepsilon_{1},\cdots,\varepsilon_{n}\)独立同分布,且\(\varepsilon_{1}\stackrel{d}{~}N_{p}(0,\Sigma)\)。 \(e\sim N_{n\times p}(0,\Sigma\otimes I_n)\),则\(Y\sim N_{n\times p}(XB,\Sigma\otimes I_n)\)。 则有 : \[ y_{i}^{\prime}=x_{i}^{\prime}B+\varepsilon_{i}^{\prime}\sim N_{p}(x_{i}^{\prime}B,\Sigma), 1\leq i\leq n \]
由于 \(y_i' = x_i' B + \varepsilon_i'\),这里的 \(x_i' B\) 是一个常数向量(因为给定了自变量 \(x_i'\) 和回归系数 B),而 \(\varepsilon_i'\) 是一个多维正态随机向量。
那么模型 \(Y = XB + e\) 可以理解为 : \[ \begin{cases} E(Y)=XB\\ {Y的行向量}y_{1}^{\prime},\cdots,y_{n}^{\prime}是相互独立的正态向量,同协方差阵\Sigma,\Sigma>0. \end{cases} \] 记\(Y=(Y_{(1)},\cdots,Y_{(p)}),B = (\beta_{1},\cdots,\beta_{p}),e=(\varepsilon_{(1)},\cdots,\varepsilon_{(p)})\),则有: \[ Y_{(j)}=X\beta_{j}+\varepsilon_{(j)},\quad 1\leq j\leq p \] 即模型\(Y = XB + e\)可以分解为\(p\)个一元线性模型,这\(p\)个一元线性模型有相同的设计矩阵\(X\)。
不难得出\(\beta_{j}\)的最小二乘估计为 \(\hat{\beta}_{j}=(X^{\prime}X)^{-}X^{\prime}Y_{(j)}\),\(1\leq j\leq p\)。
若\(rank(X)=k\),则\((X^{\prime}X)^{-}=(X^{\prime}X)^{-1}\).
\((X^{\prime}X)^{-}\)表示Moore-Penrose伪逆、当X满秩的时候伪逆=真逆)
进而有\(B\)的最小二乘估计为 \(\hat{B}=(\hat{\beta}_{1},\cdots,\hat{\beta}_{p})=(X^{\prime}X)^{-1}X^{\prime}(Y_{(1)},\cdots,Y_{(p)})=(X^{\prime}X)^{-1}X^{\prime}Y\)。
Q: 设计矩阵?
A: 设计矩阵(Design Matrix) 是回归分析中的一个重要概念,用于表示回归模型中自变量(或特征)和观测数据之间的关系。对于多元回归模型 \(Y = X B + e\),设计矩阵 X 存储了所有观测点的自变量值。具体来说:
- Y 是因变量的观测矩阵,表示所有观测点和因变量的值。
- X 是设计矩阵,包含所有观测点的自变量(或特征)值,通常是一个 \(n \times k\)的矩阵,其中:
- n 是观测点的数量(样本数量)。
- k 是自变量的数量(包括常数项,如果有的话)。
例1: p维的正态分布
设\(Y^{\prime}=(y_{1},\cdots,y_{n})\)是来自\(N_{p}(\mu,\Sigma)\)的样本,\(\Sigma>0\)。则 \[ \begin{cases}E(Y) = XB,\\Y的行向量y_{1}^{\prime},\cdots,y_{n}^{\prime}是相互独立的正态向量,协方差阵\Sigma,\Sigma>0,\end{cases} \] 其中,设计矩阵\(X = 1_{n},\ B=\mu^{\prime}\)。
例2: 多元方差分析
设有\(k\)个相互独立的总体\(Y_{j}\stackrel{d}{\sim}N_{p}(\mu_{j},\Sigma)\),\(k\geq2\)。 \(y_{j1},\cdots,y_{jn_{j}}\)是来自总体\(Y_{j}\)的样本,\(1\leq j\leq k,\ \Sigma>0\)。记\(n=\sum_{j = 1}^{k}n_{j}\) .
这相当于如下的多元线性模型 : \[ \begin{cases}E(Y) = XB,\\Y的行向量y_{1}^{\prime},\cdots,y_{n}^{\prime}是相互独立的正态向量,协方差阵\Sigma,\Sigma>0,\end{cases} \] 其中, \(X=\begin{pmatrix}1_{n_{1}}&0&\cdots&0\\0&1_{n_2}&\cdots&0\\\vdots&\vdots&\ddots&\vdots\\0&0&\cdots&1_{n_{k}}\end{pmatrix}\)是\(n\times k\)阶对角分块矩阵, \(B=\begin{pmatrix}\mu_{1}^{\prime}\\\mu_2'\\\vdots\\\mu_{k}^{\prime}\end{pmatrix}\)是\(k\times p\)阶矩阵。
4.2 充分统计量
总体上没什么新东西:意思是比较简单、会考
协方差矩阵与之前的一致,只是均值发生变化、体现在期望发生变化
需要能推导、考:列满秩、计算期望、协方差矩阵、线性变换
由等价模型知,Y的行向量\(y_{1}^{\prime},\cdots,y_{n}^{\prime}\)相互独立,且\(y_{i}\stackrel{d}{\sim}N_{p}(x_{i}^{\prime}B,\Sigma)\),\(1\leq i\leq n\)。
那么有Y的密度函数为 : \[ \begin{align*} f(Y|B,\Sigma)&=\prod_{i = 1}^{n}\frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}\exp\left\{-\frac{1}{2}(y_{i}-x_{i}^{\prime}B)^{\prime}\Sigma^{-1}(y_{i}-x_{i}^{\prime}B)\right\}\\ &=\frac{1}{(2\pi)^{np/2}|\Sigma|^{n/2}}\exp\left\{\frac{1}{2}\text{tr}[(Y - XB)\Sigma^{-1}(Y - XB)^{\prime}]\right\}\\ &=\frac{1}{(2\pi)^{np/2}|\Sigma|^{n/2}}\exp\left\{\frac{1}{2}\text{tr}[(Y - XB)^{\prime}(Y - XB)\Sigma^{-1}]\right\}\\ &=\frac{\exp\left\{-\text{tr}(B^{\prime}X^{\prime}XB\Sigma^{-1})\right\}}{(2\pi)^{np/2}|\Sigma|^{n/2}}\exp\left\{\frac{1}{2}\text{tr}(Y^{\prime}Y\Sigma^{-1}-2B^{\prime}X^{\prime}Y\Sigma^{-1})\right\} \end{align*} \] 上面\(X\)是固定的、\(Y\)才是变量。不同体现在期望是\(x_i'B\).
显然Y的分布是指数族分布,\((Y^{\prime}Y,X^{\prime}Y)\)是参数\((B,\Sigma)\)的充分统计量。
注意到,Y的密度还可以写为: \[ \begin{align} f(Y|B,\Sigma)&=\frac{1}{(2\pi)^{np/2}|\Sigma|^{n/2}}\exp\left\{\frac{1}{2}\text{tr}[(Y - XB)^{\prime}(Y - XB)\Sigma^{-1}]\right\} \\ &=\frac{1}{(2\pi)^{np/2}|\Sigma|^{n/2}}\exp\left\{-\frac{1}{2}\text{tr}[Y^{\prime}(I_{n}-X(X^{\prime}X)^{-1}X^{\prime})Y\Sigma^{-1}]\right\}\\ &-\frac{1}{2}\text{tr}\left[((X^{\prime}X)^{-1}X^{\prime}Y - B)^{\prime}(X^{\prime}X)((X^{\prime}X)^{-1}X^{\prime}Y - B)\Sigma^{-1}\right] \end{align} \] 可见\(( (X^{\prime}X)^{-1}X^{\prime}Y, Y^{\prime}(I_{n}-X(X^{\prime}X)^{-1}X^{\prime})Y)\)也是\((B,\Sigma)\)的充分统计量。 平方和分解公式(协方差矩阵的估计) : \[ \begin{align}(Y - XB)^{\prime}(Y - XB)&=Y^{\prime}(I_{n}-X(X^{\prime}X)^{-1}X^{\prime})Y\\ &+(X^{\prime}X)^{-1}X^{\prime}Y - B)^{\prime}X^{\prime}X((X^{\prime}X)^{-1}X^{\prime}Y - B)\end{align} \]
下面的这种用于X列非满秩的情况、没有逆,只能使用伪逆。
情形1:\(rank(X)=k\) X列满秩
不考广义逆,一定考列满秩的情况。
性质4.1.1
- \((X^{\prime}X)^{-1}X^{\prime}Y\stackrel{d}{\sim}N_{k\times p}(B,\Sigma\otimes(X^{\prime}X)^{-1})\);
- \(Y^{\prime}(I_{n}-X(X^{\prime}X)^{-1}X^{\prime})Y\stackrel{d}{\sim}W_{p}(n - k,\Sigma)\);
- \((X^{\prime}X)^{-1}X^{\prime}Y\)与\(Y^{\prime}(I_{n}-X(X^{\prime}X)^{-1}X^{\prime})Y\)相互独立。
(1) 证明:由于\(Y\stackrel{d}{\sim}N_{n\times p}(XB,\Sigma\otimes I_{n})\),即\(vec(Y)\stackrel{d}{\sim}N_{np}(XB,\Sigma\otimes I_{n})\)。 又有 : \[ vec((X^{\prime}X)^{-1}X^{\prime}Y)=vec((X^{\prime}X)^{-1}X^{\prime}YI_{p})=(I_{p}\otimes(X^{\prime}X)^{-1}X^{\prime})vec(Y)\\\\ \begin{align*} E[vec((X^{\prime}X)^{-1}X^{\prime}Y)]&=(I_{p}\otimes(X^{\prime}X)^{-1}X^{\prime})E[vec(Y)]\\ &=(I_{p}\otimes(X^{\prime}X)^{-1}X^{\prime})vec(XB)\\ &=vec(((X^{\prime}X)^{-1}X^{\prime})(XB)I_{p})\\ &=vec(B)\\\\ Cov[vec((X^{\prime}X)^{-1}X^{\prime}Y)]&=(I_{p}\otimes(X^{\prime}X)^{-1}X^{\prime})Cov[vec(Y)](I_{p}\otimes(X^{\prime}X)^{-1}X^{\prime})^{\prime}\\ &=(I_{p}\otimes(X^{\prime}X)^{-1}X^{\prime})(\Sigma\otimes I_{n})(I_{p}\otimes(X^{\prime}X)^{-1}X^{\prime})^{\prime}\\ &=\Sigma\otimes(X^{\prime}X)^{-1} \end{align*} \] 故知\(vec((X^{\prime}X)^{-1}X^{\prime}Y)\stackrel{d}{\sim}N_{kp}(vec(B),\Sigma\otimes(X^{\prime}X)^{-1})\),即(1)成立。
(2) 证明:由于\(Y = XB + e\),有 : \[ Y^{\prime}(I_{n}-X(X^{\prime}X)^{-1}X^{\prime})Y = e^{\prime}(I_{n}-X(X^{\prime}X)^{-1}X^{\prime})e \] 由误差向量的独立同正态分布性知\(e^{\prime}\stackrel{d}{\sim}N_{p\times n}(0,I_{n}\otimes\Sigma)\),而且不难知道\(I_{n}-X(X^{\prime}X)^{-1}X^{\prime}\)是秩为\(n - k\)的幂等阵。 由第二章关于随机矩阵二次型的性质5的(1)知 : \[ Y^{\prime}(I_{n}-X(X^{\prime}X)^{-1}X^{\prime})Y\stackrel{d}{\sim}W_{p}(n - k,\Sigma) \] 即性质(2)成立。
(3) 证明:又由第二章关于随机矩阵二次型的性质5的(3)知 : \[ e^{\prime}(I_{n}-X(X^{\prime}X)^{-1}X^{\prime})e与(X^{\prime}X)^{-1}X^{\prime}e独立\\ (X^{\prime}X)^{-1}X^{\prime}Y = B+(X^{\prime}X)^{-1}X^{\prime}e \] 知\((X^{\prime}X)^{-1}X^{\prime}Y\)与\(Y^{\prime}(I_{n}-X(X^{\prime}X)^{-1}X^{\prime})Y\)独立.
4.3 参数估计
如果误差是正态:那么可以使用极大似然估计,就可以写似然。最小二乘不一定要有似然,因为没有正态也能进行最小二乘。在二维正态下,二者等价。
参数(B, Σ)的似然函数为(去掉常数) : \[
L(B, \Sigma|Y) = |\Sigma|^{-n/2} \exp \big\{ -\frac{1}{2} \text{tr}
\left[ Y'(I_n - X(X'X)^{-1}X')Y\Sigma^{-1} \right] \\
-\frac{1}{2} \text{tr} \left[ ((X'X)^{-1}X'Y - B)' (X'X)
((X'X)^{-1}X'Y - B) \Sigma^{-1} \right] \big\}
\] 易知B的极大似然估计为 : \[
\hat{B} = (X'X)^{-1}X'Y
\] 注意到平方和分解 :
\[
(Y - XB)'(Y - XB) = Y'(I_n - X(X'X)^{-1}X')Y\\ +
((X'X)^{-1}X'Y - B)'X'X((X'X)^{-1}X'Y - B)\\\\
(Y - X\hat{B})'(Y - X\hat{B}) = \min (Y - XB)'(Y - XB)
\] 即\(\hat{B}\)也是\(B\)的最小二乘估计。
\(\hat{B}\)的分布 :
当\(\text{rank}(X)=k\)时,由性质4.1.1(1)知, \[ \hat{B} = (X'X)^{-1}X'Y \stackrel{d}{\sim} N_{k\times p}(B, \Sigma \otimes (X'X)^{-1}) \] 即\(\hat{B}\)是\(B\)的无偏估计,且\(\text{Cov}(\text{vec}(\hat{B})) = \Sigma \otimes (X'X)^{-1}\)。
当\(\text{rank}(X)<k\)时,由性质4.1.1的推论(1'')知, \[ L'\hat{B} = L'(X'X)^{-1}X'Y \stackrel{d}{\sim} N_{s\times p}(L'B, \Sigma \otimes L'(X'X)^{-1}L) \] 其中\(L = X'C\)。则\(L'\hat{B}\)是\(L'B\)的无偏估计,其协差阵为\(\Sigma \otimes L'(X'X)^{-1}L\)。
将\(\hat{B}\)代入似然函数,有: \[ L(\hat{B}, \Sigma|Y) = |\Sigma|^{-n/2} \exp \left\{ -\frac{1}{2} \text{tr} \left[ Y'(I_n - X(X'X)^{-1}X')Y\Sigma^{-1} \right] \right\} \] 因此,Σ的极大似然估计为 \[ \hat{\Sigma} = \frac{1}{n} Y'(I_n - X(X'X)^{-1}X')Y \] 再将\(\hat{B}\)和\(\hat{\Sigma}\)代入似然函数,有: \[ \max_{B, \Sigma} L(B, \Sigma|Y) = |\hat{\Sigma}|^{-n/2} \exp \left\{ -\frac{n\rho}{2} \right\} = |Y'(I_n - X(X'X)^{-1}X')Y|^{-n/2} \left( \frac{n}{e} \right)^{np/2} \] 由性质4.1.1的推论(2)知, \[ Y'(I_n - X(X'X)^{-1}X')Y \stackrel{d}{\sim} W_p(n - r, \Sigma)\\ \tilde{\Sigma} = \frac{1}{n - r} Y'(I_n - X(X'X)^{-1}X')Y \] 易知\(E(\tilde{\Sigma})=\Sigma\),即\(\tilde{\Sigma}\)是\(\Sigma\)的无偏估计。
由性质4.1.1的推论(3)知,\(\tilde{\Sigma}\)与\(\hat{B}\)相互独立。
4.3.1 最小二乘估计的基本定理
不考有约束的。
第一基本定理
令\(R_{0}^{2}=\min_{B}(Y - XB)'(Y - XB)\),则 \[ R_{0}^{2}\stackrel{d}{\sim}W_{p}(n - r,\Sigma) \] 其中\(\text{rank}(X)=r\)。
4.6 多元线性回归
考X,写成矩阵形式(?)不太理解
多元线性回归模型的定义如下:
\[
Y = 1_n\beta_0'+XB+\varepsilon
\] 其中:
- 因变量\(Y\)是\(n\times p\)阶可观测的随机矩阵,\(n\geq p\);
- 设计矩阵(预报因子)\(X\)是已知的\(n\times k\)阶矩阵,\(n\geq k\);
- \((\beta_0',B)\)称为回归系数,截距\(\beta_0\)是\(p\)维向量,斜率\(B\)是\(k\times
p\)阶矩阵,\((\beta_0',B)\)未知;
- \(\varepsilon\)是\(n\times p\)阶不可观测的随机误差矩阵,\(\varepsilon\stackrel{d}{\sim}N_{n\times p}(0,\Sigma\otimes I_n)\),\(\Sigma\)是未知的\(p\)阶正定阵。
行与列向量表示 记\(Y\),\(X\)和\(\varepsilon\)行与列向量分别为 : \[
Y=\begin{pmatrix}y_{11}\\ \vdots\\
y_{n1}\end{pmatrix}=(y_{(1)},\cdots,y_{(p)})\\
X=\begin{pmatrix}x_{11}'\\ \vdots\\
x_{n1}'\end{pmatrix}=(x_{(1)},\cdots,x_{(k)})\\
\varepsilon=\begin{pmatrix}\varepsilon_{11}\\ \vdots\\
\varepsilon_{n1}\end{pmatrix}=(\varepsilon_{(1)},\cdots,\varepsilon_{(p)})
\] 因此,由模型知:
\[
y_{i}'=\beta_0'+x_{i}'B+\varepsilon_{i}'\stackrel{d}{\sim}N_p(\beta_0'+x_{i}'B,\Sigma),\
1\leq i\leq n
\] 令\(\beta_0'=(\beta_{01},\cdots,\beta_{0p})\),\(B = (\beta_1,\cdots,\beta_p)\),则有 :
\[
y_{(j)}=1_n\beta_{0j}+X\beta_j+\varepsilon_{(j)},\ 1\leq j\leq p
\] 因此,模型可以分解成\(p\)个一元线性回归模型,这\(p\)个一元线性回归模型有相同的设计矩阵\(X\)。
若令\(X^*=(1_n,X)\),\(B^*=\begin{pmatrix}\beta_0'\\ B\end{pmatrix}\),则模型(11)又可以写为:
\(Y = X^*B^*+\varepsilon\)。
即多元线性回归模型可以转换为多元线性模型。
假定\(\text{rank}(X^*) = k + 1\),即\(X\)列满秩且其列向量与\(1_n\)线性无关。因此,可以基于多元线性模型的统计推断研究多元线性回归模型。
一些记号: \[ y_{(j)}=\begin{pmatrix}y_{1j}\\ \vdots\\ y_{nj}\end{pmatrix},\bar{y}=\begin{pmatrix}\bar{y}_1\\ \vdots\\ \bar{y}_p\end{pmatrix}=\frac{1}{n}\sum_{i = 1}^{n}y_{ij},\ 1\leq j\leq p\\ x_{(j)}=\begin{pmatrix}x_{1j}\\ \vdots\\ x_{nj}\end{pmatrix},\bar{x}=\begin{pmatrix}\bar{x}_1\\ \vdots\\ \bar{x}_k\end{pmatrix}=\frac{1}{n}\sum_{i = 1}^{n}x_{ij},\ 1\leq j\leq k \] 最后有点不确定。