Ch4 多元线性模型

码字机施工中…

[TOC]

4.0 一元线性模型

假设有自变量，因变量。

一元线性模型的定义：

$y = x'\beta+\epsilon$

其中，是模型参数，是随机误差，。

是对的线性回归:

$E(y|x)=E(x'\beta+\epsilon|x)=x'\beta + E(\epsilon|x)=x'\beta\\ y=x_{(1)}\beta_1+\cdots + x_{(k)}\beta_k+\epsilon$

4.0.1 模型参数的估计

假设有组观测。最小二乘法即最小化误差平方和（Residual Sum of Squares, RSS, 我们的目标函数）：

$RSS({\beta})=\sum_{i = 1}^{n}(y_i - x_i'\beta)^2\\ \hat \beta =\arg\min_{\beta\in R^k} RSS(\beta)$

记，是的矩阵，。

则对这组观测，模型可表示为。
则的最小二乘法估计为。

$\begin{align} RSS(\beta) &=(Y-X\beta)'(Y-X\beta)\\ &=Y'Y-Y'X\beta-(X\beta)'Y+(X\beta)'(X\beta)\\ &=Y'Y-2\beta'X'Y+\beta'X'X\beta\\\\ \frac{\partial{RSS(\beta) }}{\partial\beta}&=-2X'Y+2X'X\beta=0\\ X'X\beta&=X'Y\\ \hat\beta&=(X'X)^{-1}X'Y \end{align}\\$

模型的应用：

对未来的设计变量，可以预测相应的因变量：。
当自变量为单变量时，为了控制未来的因变量，可以约束自变量的取值范围。

4.1 多元线性模型

相当于x和y由一个值变为一个向量. 此时x在空间，y在空间.

假设有自变量，因变量。

与的关系可表示为如下个一元线性模型：

$y_{(i)} = x'\beta_i+\epsilon_{(i)}$

，其中，是每个子线性模型的参数，是每个因变量对应的随机误差，，。

记是的模型参数矩阵，是误差向量。那么，与的关系可表示为:

$y' = x'B+\epsilon'$

假设有组观测。记，，。

x 和 y 由向量转变为矩阵，原先只是在空间，现在在空间。

多元线性模型的定义如下：，

其中:

是阶观测的随机矩阵，；
是已知的阶设计矩阵，，； (3)
是阶的未知回归系数矩阵；
是阶不可观测的随机误差矩阵。

若记 :

$\begin{align} Y&=\begin{pmatrix}y_{(11)}&y_{(12)}&\cdots&y_{(1p)}\\y_{(21)}&y_{(22)}&\cdots&y_{(2p)}\\\vdots&\vdots&\ddots&\vdots\\y_{(n1)}&y_{(n2)}&\cdots&y_{(np)}\end{pmatrix}=\begin{pmatrix}y_1'\\y_2'\\\vdots\\y_n'\end{pmatrix}=(Y_{(1)},\cdots,Y_{(p)})'\\ X&=\begin{pmatrix}x_{(11)}&x_{(12)}&\cdots&x_{(1k)}\\x_{(21)}&x_{(22)}&\cdots&x_{(2k)}\\\vdots&\vdots&\ddots&\vdots\\x_{(n1)}&x_{(n2)}&\cdots&x_{(nk)}\end{pmatrix}=\begin{pmatrix}x_1'\\x_2'\\\vdots\\x_n'\end{pmatrix}\\ e&=\begin{pmatrix}\epsilon_{(11)}&\epsilon_{(12)}&\cdots&\epsilon_{(1p)}\\\epsilon_{(21)}&\epsilon_{(22)}&\cdots&\epsilon_{(2p)}\\\vdots&\vdots&\ddots&\vdots\\\epsilon_{(n1)}&\epsilon_{(n2)}&\cdots&\epsilon_{(np)}\end{pmatrix}=\begin{pmatrix}\epsilon_1'\\\epsilon_2'\\\vdots\\\epsilon_n'\end{pmatrix}=(\epsilon_{(1)},\cdots,\epsilon_{(p)})' \end{align}$

则模型化为，，。

我们假定服从正态分布，只在特别情况下会说明只假定一、二阶矩存在(有界)的情形。

Q: 一阶矩、二阶矩？

A: 矩（moment）是用来描述随机变量分布特性的数字量度。

一阶矩：均值、

二阶矩：方差、协方差：

假设，其中误差协方差阵是未知的阶正定矩阵。由，知独立同分布，且。，则。则有 :

$y_{i}^{\prime}=x_{i}^{\prime}B+\varepsilon_{i}^{\prime}\sim N_{p}(x_{i}^{\prime}B,\Sigma), 1\leq i\leq n$

由于，这里的是一个常数向量（因为给定了自变量和回归系数 B），而是一个多维正态随机向量。

那么模型可以理解为 :

$\begin{cases} E(Y)=XB\\ {Y的行向量}y_{1}^{\prime},\cdots,y_{n}^{\prime}是相互独立的正态向量，同协方差阵\Sigma,\Sigma>0. \end{cases}$

记，则有:

$Y_{(j)}=X\beta_{j}+\varepsilon_{(j)},\quad 1\leq j\leq p$

即模型可以分解为个一元线性模型，这个一元线性模型有相同的设计矩阵。

不难得出的最小二乘估计为，。

若，则.

表示Moore-Penrose伪逆、当X满秩的时候伪逆=真逆）

进而有的最小二乘估计为。

Q: 设计矩阵？

A: 设计矩阵（Design Matrix） 是回归分析中的一个重要概念，用于表示回归模型中自变量（或特征）和观测数据之间的关系。对于多元回归模型，设计矩阵 X 存储了所有观测点的自变量值。具体来说：

Y 是因变量的观测矩阵，表示所有观测点和因变量的值。

X 是设计矩阵，包含所有观测点的自变量（或特征）值，通常是一个的矩阵，其中：

n 是观测点的数量（样本数量）。

k 是自变量的数量（包括常数项，如果有的话）。

例1: p维的正态分布

设是来自的样本，。则

$\begin{cases}E(Y) = XB,\\Y的行向量y_{1}^{\prime},\cdots,y_{n}^{\prime}是相互独立的正态向量，协方差阵\Sigma,\Sigma>0,\end{cases}$

其中，设计矩阵。

例2: 多元方差分析

设有个相互独立的总体，。是来自总体的样本，。记 .

这相当于如下的多元线性模型 :

$\begin{cases}E(Y) = XB,\\Y的行向量y_{1}^{\prime},\cdots,y_{n}^{\prime}是相互独立的正态向量，协方差阵\Sigma,\Sigma>0,\end{cases}$

其中，是阶对角分块矩阵，是阶矩阵。

4.2 充分统计量

由等价模型知，Y的行向量相互独立，且，。

那么有Y的密度函数为 :

$\begin{align*} f(Y|B,\Sigma)&=\prod_{i = 1}^{n}\frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}\exp\left\{-\frac{1}{2}(y_{i}-x_{i}^{\prime}B)^{\prime}\Sigma^{-1}(y_{i}-x_{i}^{\prime}B)\right\}\\ &=\frac{1}{(2\pi)^{np/2}|\Sigma|^{n/2}}\exp\left\{\frac{1}{2}\text{tr}[(Y - XB)\Sigma^{-1}(Y - XB)^{\prime}]\right\}\\ &=\frac{1}{(2\pi)^{np/2}|\Sigma|^{n/2}}\exp\left\{\frac{1}{2}\text{tr}[(Y - XB)^{\prime}(Y - XB)\Sigma^{-1}]\right\}\\ &=\frac{\exp\left\{-\text{tr}(B^{\prime}X^{\prime}XB\Sigma^{-1})\right\}}{(2\pi)^{np/2}|\Sigma|^{n/2}}\exp\left\{\frac{1}{2}\text{tr}(Y^{\prime}Y\Sigma^{-1}-2B^{\prime}X^{\prime}Y\Sigma^{-1})\right\} \end{align*}$

显然Y的分布是指数族分布，是参数的充分统计量。

注意到，Y的密度还可以写为:

$\begin{align} f(Y|B,\Sigma)&=\frac{1}{(2\pi)^{np/2}|\Sigma|^{n/2}}\exp\left\{\frac{1}{2}\text{tr}[(Y - XB)^{\prime}(Y - XB)\Sigma^{-1}]\right\} \\ &=\frac{1}{(2\pi)^{np/2}|\Sigma|^{n/2}}\exp\left\{-\frac{1}{2}\text{tr}[Y^{\prime}(I_{n}-X(X^{\prime}X)^{-1}X^{\prime})Y\Sigma^{-1}]\right\}\\ &-\frac{1}{2}\text{tr}\left[((X^{\prime}X)^{-1}X^{\prime}Y - B)^{\prime}(X^{\prime}X)((X^{\prime}X)^{-1}X^{\prime}Y - B)\Sigma^{-1}\right] \end{align}$

可见也是的充分统计量。平方和分解公式 :

$\begin{align}(Y - XB)^{\prime}(Y - XB)&=Y^{\prime}(I_{n}-X(X^{\prime}X)^{-1}X^{\prime})Y\\ &+(X^{\prime}X)^{-1}X^{\prime}Y - B)^{\prime}X^{\prime}X((X^{\prime}X)^{-1}X^{\prime}Y - B)\end{align}$

下面的这种用于X列非满秩的情况、没有逆，只能使用伪逆。

情形1： X列满秩

性质4.1.1

；
；
与相互独立。

(1) 证明：由于，即。又有 :
$vec((X^{\prime}X)^{-1}X^{\prime}Y)=vec((X^{\prime}X)^{-1}X^{\prime}YI_{p})=(I_{p}\otimes(X^{\prime}X)^{-1}X^{\prime})vec(Y)\\\\ \begin{align*} E[vec((X^{\prime}X)^{-1}X^{\prime}Y)]&=(I_{p}\otimes(X^{\prime}X)^{-1}X^{\prime})E[vec(Y)]\\ &=(I_{p}\otimes(X^{\prime}X)^{-1}X^{\prime})vec(XB)\\ &=vec(((X^{\prime}X)^{-1}X^{\prime})(XB)I_{p})\\ &=vec(B)\\\\ Cov[vec((X^{\prime}X)^{-1}X^{\prime}Y)]&=(I_{p}\otimes(X^{\prime}X)^{-1}X^{\prime})Cov[vec(Y)](I_{p}\otimes(X^{\prime}X)^{-1}X^{\prime})^{\prime}\\ &=(I_{p}\otimes(X^{\prime}X)^{-1}X^{\prime})(\Sigma\otimes I_{n})(I_{p}\otimes(X^{\prime}X)^{-1}X^{\prime})^{\prime}\\ &=\Sigma\otimes(X^{\prime}X)^{-1} \end{align*}$
故知，即(1)成立。

(2) 证明：由于，有：
$Y^{\prime}(I_{n}-X(X^{\prime}X)^{-1}X^{\prime})Y = e^{\prime}(I_{n}-X(X^{\prime}X)^{-1}X^{\prime})e$
由误差向量的独立同正态分布性知，而且不难知道是秩为的幂等阵。由第二章关于随机矩阵二次型的性质5的(1)知：
$Y^{\prime}(I_{n}-X(X^{\prime}X)^{-1}X^{\prime})Y\stackrel{d}{\sim}W_{p}(n - k,\Sigma)$
即性质(2)成立。

(3) 证明：又由第二章关于随机矩阵二次型的性质5的(3)知：
$e^{\prime}(I_{n}-X(X^{\prime}X)^{-1}X^{\prime})e与(X^{\prime}X)^{-1}X^{\prime}e独立\\ (X^{\prime}X)^{-1}X^{\prime}Y = B+(X^{\prime}X)^{-1}X^{\prime}e$
知与独立.

情形2:

性质4.1.1的推论

;
- (1’);_
- (1’’) 对阶的矩阵C, , 则 ;
;
与相互独立.

4.3 参数估计

参数(B, Σ)的似然函数为(去掉常数) ：

$L(B, \Sigma|Y) = |\Sigma|^{-n/2} \exp \big\{ -\frac{1}{2} \text{tr} \left[ Y'(I_n - X(X'X)^{-1}X')Y\Sigma^{-1} \right] \\ -\frac{1}{2} \text{tr} \left[ ((X'X)^{-1}X'Y - B)' (X'X) ((X'X)^{-1}X'Y - B) \Sigma^{-1} \right] \big\}$

易知B的极大似然估计为 :

$\hat{B} = (X'X)^{-1}X'Y$

注意到平方和分解 :

$(Y - XB)'(Y - XB) = Y'(I_n - X(X'X)^{-1}X')Y\\ + ((X'X)^{-1}X'Y - B)'X'X((X'X)^{-1}X'Y - B)\\\\ (Y - X\hat{B})'(Y - X\hat{B}) = \min (Y - XB)'(Y - XB)$

即也是的最小二乘估计。

的分布 :

当时，由性质4.1.1(1)知，

$\hat{B} = (X'X)^{-1}X'Y \stackrel{d}{\sim} N_{k\times p}(B, \Sigma \otimes (X'X)^{-1})$

即是的无偏估计，且。

当时，由性质4.1.1的推论(1’’)知，

$L'\hat{B} = L'(X'X)^{-1}X'Y \stackrel{d}{\sim} N_{s\times p}(L'B, \Sigma \otimes L'(X'X)^{-1}L)$

其中。则是的无偏估计，其协差阵为。

将代入似然函数，有:

$L(\hat{B}, \Sigma|Y) = |\Sigma|^{-n/2} \exp \left\{ -\frac{1}{2} \text{tr} \left[ Y'(I_n - X(X'X)^{-1}X')Y\Sigma^{-1} \right] \right\}$

因此，Σ的极大似然估计为

$\hat{\Sigma} = \frac{1}{n} Y'(I_n - X(X'X)^{-1}X')Y$

再将和代入似然函数，有:

$\max_{B, \Sigma} L(B, \Sigma|Y) = |\hat{\Sigma}|^{-n/2} \exp \left\{ -\frac{n\rho}{2} \right\} = |Y'(I_n - X(X'X)^{-1}X')Y|^{-n/2} \left( \frac{n}{e} \right)^{np/2}$

由性质4.1.1的推论(2)知，

$Y'(I_n - X(X'X)^{-1}X')Y \stackrel{d}{\sim} W_p(n - r, \Sigma)\\ \tilde{\Sigma} = \frac{1}{n - r} Y'(I_n - X(X'X)^{-1}X')Y$

易知，即是的无偏估计。

由性质4.1.1的推论(3)知，与相互独立。

最小二乘基本定理

第一基本定理

令，则

$R_{0}^{2}\stackrel{d}{\sim}W_{p}(n - r,\Sigma)$

其中。

第二基本定理

在的约束条件下，令

$R_{H}^{2}=\min_{H'B = 0}(Y - XB)'(Y - XB)$

其中是的矩阵，。

那么有：

(i) ，其中，，；
(ii) ；
(iii) 与相互独立；
(iv) 。

(i)证明：由广义逆的性质知的通解是，其中是任意的阶矩阵。则在的约束下模型转换为
$Y = X_{H}\Theta+\varepsilon$
其设计矩阵为，。

由第一基本定理知：
$\begin{align} R_{H}^{2}&=\min_{H'B = 0}(Y - XB)'(Y - XB)=\min_{\Theta}(Y - X_{H}\Theta)'(Y - X_{H}\Theta)\\ &=Y'(I_{n}-X_{H}(X_{H}'X_{H})^{-1}X_{H}')Y\\ &\stackrel{d}{\sim}W_{p}(n - m,\Sigma) \end{align}$
(ii)-(iv) 证明：因为：
$\begin{align} R_{H}^{2}&=\min_{H'B = 0}(Y - XB)'(Y - XB)\geq\min_{B}(Y - XB)'(Y - XB)=R_{0}^{2}\\\\ &\begin{cases} R_{H}^{2}=\varepsilon'(I_{n}-X_{H}(X_{H}'X_{H})^{-1}X_{H}')\varepsilon\\ R_{0}^{2}=\varepsilon'(I_{n}-X(X'X)^{-1}X')\varepsilon\end{cases} \end{align}$
由第二章关于随机矩阵二次型的性质5的(2)知:
$R_{H}^{2}-R_{0}^{2}\stackrel{d}{\sim}W_{p}(r - m,\Sigma)$
且与相互独立。进而有 :
$\frac{\vert R_{0}^{2}\vert}{\vert R_{H}^{2}\vert}=\frac{\vert R_{0}^{2}\vert}{\vert R_{0}^{2}+(R_{H}^{2}-R_{0}^{2})\vert}\stackrel{d}{\sim}\Lambda_{p,n - r - m}$
即(ii)-(iv)得证。

特殊情况

若，是秩为的阶矩阵，则的秩为。因此有：

(i) ；
(ii) ；
(iii) 与相互独立；
(iv) 。

第三基本定理

将和分别剖分为:

$Y= \begin{pmatrix} \mathbf{Y}_1 \\ \mathbf{Y}_2 \end{pmatrix}, \quad X= \begin{pmatrix} \mathbf{X}_1 \\ \mathbf{X}_2 \end{pmatrix},\quad Y: \begin{pmatrix} m \times p \\ (n - m) \times p \end{pmatrix}, \quad X: \begin{pmatrix} m \times k \\ (n - m) \times k \end{pmatrix}$

假设的秩为，并令，则有

$\frac{\vert R_{1}^{2}\vert}{\vert R_{0}^{2}\vert} \stackrel{d}{\sim} \Lambda_{p,m - r_{1},n - m - r + r_{1}}$

证明：由于有
$\begin{align} R_{0}^{2}&=\min_{B}(Y - XB)'(Y - XB)=Y'(I_{n}-X(X'X)^{-1}X')Y \\ &\stackrel{d}{\sim} W_{p}(n - r,\Sigma)\\ \\ R_{1}^{2}&=\min_{B}(Y_{1}-X_{1}B)'(Y_{1}-X_{1}B)=Y_{1}'(I_{m}-X_{1}(X_{1}'X_{1})^{-1}X_{1}')Y_{1} \\ &\stackrel{d}{\sim} W_{p}(m - r_{1},\Sigma) \end{align}$
由于:
$(Y - XB)'(Y - XB)=(Y_{1}-X_{1}B)'(Y_{1}-X_{1}B)+(Y_{2}-X_{2}B)'(Y_{2}-X_{2}B)$
所以。又，其中:
$A=\left(\begin{array}{cc} I_{m}-X_{1}(X_{1}'X_{1})^{-1}X_{1}' & 0 \\ 0 & 0 \end{array}\right)$
由随机矩阵二次型的性质知，，且与相互独立。进而有 :
$\frac{\vert R_{1}^{2}\vert}{\vert R_{0}^{2}\vert}=\frac{\vert R_{1}^{2}\vert}{\vert R_{1}^{2}+(R_{0}^{2}-R_{1}^{2})\vert} \stackrel{d}{\sim} \Lambda_{p,m - r_{1},n - m - r + r_{1}}$

4.4 线性假设检验

检验问题1

$H_{0}:H'B = 0,\quad v.s.\quad H_{1}:H'B\neq0$

其中是的矩阵。

检验问题的似然比为 :

$\lambda=\frac{\max_{H'B = 0,\Sigma}L(B,\Sigma|Y)}{\max_{B,\Sigma}L(B,\Sigma|Y)}$

由已知 :

$\max_{B,\Sigma}L(B,\Sigma|Y)=\vert Y'(I_{n}-X(X'X)^{-1}X')Y\vert^{-n/2}\left(\frac{n}{e}\right)^{np/2}$

由已知，在约束下，多元线性模型转化为:

$Y = X_{H}\Theta+\epsilon$

因此有：

$\max_{H'B = 0,\Sigma}L(B,\Sigma|Y)=\max_{\Theta,\Sigma}L(\Theta,\Sigma|Y)$

其中是多元线性模型的似然函数。

同样利用已知，可以推得：

$\max_{\Theta,\Sigma}L(\Theta,\Sigma|Y)=\vert Y'(I_{n}-X_{H}(X_{H}'X_{H})^{-1}X_{H}')Y\vert^{-n/2}\left(\frac{n}{e}\right)^{np/2}$

进而得：

$\max_{H'B = 0,\Sigma}L(B,\Sigma|Y)=\vert Y'(I_{n}-X_{H}(X_{H}'X_{H})^{-1}X_{H}')Y\vert^{-n/2}\left(\frac{n}{e}\right)^{np/2}$

4.5 均值子集的线性假设检验

4.6 多元线性回归模型

4.6.1 参数估计

4.6.2 假设检验

4.7 变量选择-逐步回归方法

4.7.1 预报因子的逐步回归选取方法

4.7.2 因变量的逐步回归选取方法

4.7.3 其他的变量选择方法

4.8 多元线性模型的均值置信域和预测域

4.8.1 均值置信域

4.8.2 预测域

4.9 重复测量模型

4.9.2 方差分析

作业

线性模型, 其中列满秩, . 给出下面检验问题的检验方案：

$H_0:\beta_1=\dots=\beta_p,\quad v.s.\quad H_1:\beta_1,\dots,\beta_p不全相等$

答案：

$G=\begin{pmatrix} 1&&&0\\ -1&1&&\\ &\ddots&\ddots&\\ 0&&-1&1 \end{pmatrix}\\$

多元统计分析-Ch4-多元线性模型