多元统计分析-复习(上)
期末复习-上
[TOC]
知识复习
Ch1 多元分布
不考的
- 特征函数
- 分块矩阵
- 偏相关系数、精度矩阵K=Σ−1
- 矩阵拉直、Kronecker积、矩阵分布
1.1 矩阵知识
Cov(AX)=ACov(X)A′Cov(AX,BY)=ACov(X,Y)B′
出送分题,计算二维协方差矩阵,对角线是方差Var(X),非对角线是协方差Cov(X,Y).
1.2 多元正态分布
似然=密度。会算似然比、极大似然估计。
1.2.1 密度函数
若p元随机向量X服从参数为μ,Σ的多元正态分布,其概率密度函数为:
p(x)=(2π)−p2|Σ|−12exp{−12(x−μ)′Σ−1(x−μ)}
1.2.2 线性变换(基本)
定理1:设p元随机向量X=μ+AY, 其中μ∈Rk,A为k×p的行满秩矩阵,k≤p, 随机向量Yd∼Np(0,Ip), 则Xd∼Nk(μ,Σ), 其中Σ=AA′>0.
p元标准正态分布:Yd∼Np(0,Ip)
性质
给出的基本都要考。
性质 | 说明: Xd∼N(μ,Σ) |
---|---|
密度函数 | p(x)=(2π)−p2‖Σ‖−12exp{−12(x−μ)′Σ−1(x−μ)} |
期望方差 | E(X)=μ,Cov(X)=Σ |
线性变换 | Y=η+AX,η∈Rk,Ak×p,Yd∼Nk(η+Aμ,AΣA′) |
相互独立 | 设X1,…,Xk相互独立,Xid∼Np(μi,Σi),1≤i≤k, 则∑ki=1αiXid∼Np(∑ki=1αiμi,∑ki=1α2iΣi) |
卡方分布 | Σ>0, 则(X−μ)′Σ−1(X−μ)d∼χ2p, 其中χ2p是自由度为p的卡方分布。 |
边缘分布 | X=(X(q)1X(p−q)2),μ=(μ1μ2),Σ=(Σ11Σ12Σ21Σ22),则X(q)1d∼Nq(μ1,Σ11),X(p−q)2oversetd∼Np−q(μ2,Σ22) |
分量独立性 | X=(X(q1)1⋮X(qk)k),Σ=(Σ11…Σ1k⋮⋱⋮Σk1…Σkk),则X(qi)i,X(qj)j(1≤i<j≤k)相互独立的充要条件是Cov(Xqii,X(qj)j)=Σij=0. |
条件分布 | (X1|X2=x2)d∼Nq(μ1|2,Σ1|2),其中μ1|2=E(X1|X2=x2)=μ1+Σ12Σ−122(x2−μ2),Σ1|2=Cov(X1|X2=x2)=Σ11−Σ12Σ−122Σ21.(Σ1|2≤Σ11) |
条件分布考:给出公式计算即可。
1.3 相关系数
计算相关系数,定义知道即可。 pij=Cov(Xi,Xj)√Var(Xi)√Var(Xj)=σij√σii√σjj
Ch2 由多元正态分布导出的分布
不考的:
- Wishart密度函数、部分性质
- 非中心的Hotelling T2分布
- Wilks分布
2.1 Wishart分布
考一个Wishart分布小性质。
设随机向量X=(X1,⋯,Xn),其中X1,⋯,Xn i.i.d.(独立同分布),每个Xi都遵循一个多维正态分布 Xid∼Np(0,Σ),1≤i≤n。
p阶Wishart分布:称p阶随机矩阵W=XX′=∑ni=1XiX′i的分布为p阶Wishart分布,记为 $ WW_p(n,),其中n$称为其自由度。
2.1.1 性质
简要说明 | 性质 |
---|---|
1.分布期望 | 若 Wd∼Wp(n,Σ),则 E(W)=nΣ |
2.线性变换 | 若 Wd∼Wp(n,Σ),C 是 k×p 阶矩阵,则 CWC′d∼Wk(n,CΣC′) |

2.2 Hotelling T2分布
Hotelling T2分布:设Xd∼Np(0,Σ),Wd∼Wp(n,Σ),且X和W相互独立。记为T2=nX′W−1X.
得到的是数。注意X,Y的协方差矩阵相同Σ且独立。
进行置信检验使用F分布而不是T2.因为T2本身就能化成F分布。
Ch3 多元正态分布的估计与检验
不考的:
- 极大似然估计中的正交分解
- 样本相关系数的精确分布和渐进分布
- ρ=0的假设检验
- 渐进分布的区间估计(渐进正态性)、方差齐性变换
- 正态总体均值的Bayes估计
- 多元BF问题
- 多元方差分析
- 独立性检验(很重要,但是不考)、条件独立性检验
- 多重比较
3.1 多元正态分布样本统计量
设X1,X2,⋯,Xn为来自多元正态总体Np(μ,Σ)的独立样本,其中μ∈Rp,Σ>0,n>p。记:
metric | 公式 | 说明 |
---|---|---|
样本均值 | ¯X=n−1∑ni=1Xi | 无偏估计,即E(¯X)=μ。 |
样本离差阵 | V=∑ni=1(Xi−¯X)(Xi−¯X)′ | 衡量了样本点相对于样本均值的离散程度。 |
样本协方差阵 | S=1n−1V | 对离差阵进行归一化 |
事实:(¯X,V)是(μ,Σ)的完全充分统计量, 这意味着¯X和V包含了样本中关于总体参数μ和Σ的所有信息。
3.1.1 (ˉX, V) 的分布性质
- ˉX∼Np(μ,Σ/n);
- V∼Wp(n−1,Σ);
- ˉX与 V相互独立。
证明:
(1)记 X=(X1,⋯,Xn),则有 E(X)=μ1′n,Cov(vec(X))=In⊗Σ。
令 U=(U1,U2,⋯,Un)为 n阶正交矩阵,其中: U1=(1√n,1√n,⋯,1√n)′=1√n1n1′nUj=√n(1√n1n)′Uj=√nUiUj=0
U的第一列 U1被特别选择为与样本均值方向相关的向量。令 Y=XU记为 (Y1,Y2,⋯,Yn),则Y1代表了样本均值方向上的信息, Y2,⋯,Yn则代表了与样本均值正交的剩余信息。 E(Y)=E(X)U=μ1′nU=μ1′n(1√n1n,U2,⋯,Un)=(√nμ,0,⋯,0)Cov(vec(Y))=Cov(vec(IpXU))=Cov((U′⊗Ip)vec(X))=(U′⊗Ip)Cov(vec(X))(U⊗Ip)=(U′⊗Ip)(In⊗Σ)(U⊗Ip)=In⊗Σ从上面的Cov(Y)=In⊗Σ可以得到:Y1,Y2,⋯,Yn相互独立,且Y1=√nˉX∼Np(√nμ,Σ), Y2,⋯,Yn∼Np(0,Σ)。 因而有ˉX∼Np(μ,Σ/n),即(1)成立。(2)由于YY′=(XU)(U′X′)=XX′,即∑ni=1XiX′i=∑ni=1YiY′i,因而有 V=n∑i=1XiX′i−nˉXˉX′=n∑i=1XiX′i−Y1Y′1=n∑i=1YiY′i−Y1Y′1=n∑i=2YiY′i∼Wp(n−1,Σ)
所以(2)成立。 又由于√nˉX=Y1,V=∑ni=2YiY′i,因此ˉX与V独立,即(3)成立。
3.2 多元正态分布的参数估计
密度函数给出,根据密度函数写似然。
3.2.1 极大似然估计
观测样本X=(X1,X2,⋯,Xn)的联合密度: f(X)=(2π)−np2|Σ|−n2exp{−12trΣ−1(V+n(ˉX−μ)(ˉX−μ)′)}
3.2.2 样本相关系数
样本相关系数是总体相关系数的估计,与其差距有多大,使用分布刻画。
知道样本相关系数可以检验X和Y独立,不考。
记Υ=(ρij)p×p为正态总体的相关系数矩阵,并记V=(vij)p×p,S=(sij)p×p,则ρij的极大似然估计为: ˆρij=rij=vij√viivjj=sij√siisjj,1≤i,j≤p
3.2.3 正态总体均值的置信域估计
考:Σ已知时化成χ2分布、Σ未知时化成T2分布-->F分布
等价于似然比检验和区间估计、使用输入量构造统计量、与似然比殊途同归。
A.单总体
设x1,…,xn是来自p元正态总体Np(μ,Σ)的随机样本,其中μ∈Rp,Σ>0,n>p. 上面给出了总体均值向量μ和总体协方差矩阵Σ的无偏估计分别是样本均值向量ˉx和样本协方差矩阵S. 下面讨论μ的置信域估计问题,分别在总体协方差阵Σ已知和未知的两种情况下讨论。
Σ已知
如果总体协方差矩阵 Σ已知,样本均值向量 ˉx的分布可以通过标准化后的形式来推导出:
n(ˉX−μ)′Σ−1(ˉX−μ)d→χ2(p)
Q: χ2分布与置信域的联系?
A: 具体来说,样本均值 ˉx和总体均值 μ之间的偏差经过标准化后(即通过协方差矩阵的逆来标准化)符合 2(p)分布。这意味着,我们可以通过卡方分布的分位点来构建置信区间。
置信域 D中21−(p)是卡方分布自由度为 p时,置信度为 (1−α)的分位点。这表示总体均值 μ在给定的样本数据下落入该置信域的概率为 1−α。
Σ未知
因为Σ我们无从得知,所以使用Σ的无偏估计S=1n−1V来代替。令 : T2=n(ˉX−μ)′S−1(ˉX−μ)=n(n−1)(ˉX−μ)′V−1(ˉX−μ)∼T2p(n−1)
由正态样本统计量的性质知 :√n(ˉX−μ)d→N(0,Σ), Vd→Wp(n−1,Σ), 且${X} 与V$独立.
Hotelling T2分布性质如下:
性质 说明 1. X′W−1Xd=χ2(p)χ2(n−p+1),其中分子分母相互独立; 2. n−p+1npT2p(n)d=χ2(p)/pχ2(n−p+1)/(n−p+1)d∼F(p,(n−p+1))
因此有: T2=(n−1)(√n(ˉX−μ))′V−1(√n(ˉX−μ))d→T2p(n−1)1n−1T2=n(ˉX−μ)′V−1(ˉX−μ)d→χ2(p)χ2(n−p)n−p(n−1)pT2d→χ2(p)/pχ2(n−p)/(n−p)d→F(p,n−p)
PS: 因为这个置信域D是一个二次型,那么上述的不等式就是对这个二次型的约束,所以,这个置信域是一个超椭球。
- 协方差矩阵 V的逆 V−1定义了椭球的方向和形状,特征值决定了每个方向上的伸缩因子。
- F分布的临界值 F1−α(p,n−p)确定了超椭球的大小。
B.两总体
设独立总体Xd∼Np(μ1,Σ),Yd∼Np(μ2,Σ),μ1,μ2∈Rp,Σ>0。 (属于同一维度空间,但分布不同。)
记 X=(X1,⋯,Xm),Y=(Y1,⋯,Yn)分别为来自总体X和Y的样本,min{m,n}>p。 我们要构造总体均值差δ=μ1−μ2的置信域估计。
已知:
已知条件 | 对应公式 |
---|---|
样本X的样本离差阵和协方差矩阵 | V1=∑ni=1(xi−ˉx)(xi−ˉx)′,S1=1n−1V1 |
样本Y的样本离差阵和协方差矩阵 | V2=∑ni=1(yi−ˉy)(yi−ˉy)′,S2=1n−1V2 |
我们下面讨论的问题是:
- Σ1=Σ2=Σ: ①Σ未知,②Σ已知
- Σ1≠Σ2(这种情况在本课程中不涉及,下面也不会涉及)
因此下面对于Σ未知、Σ已知的考虑的前提是Σ1=Σ2=Σ.
Σ已知
由ˉXd∼Np(μ1,Σ/m),ˉYd∼Np(μ2,Σ/n),有: (ˉX−ˉY)d∼Np(δ,(1m+1n)Σ)=Np(δ,mnm+nΣ)
根据二次型的性质:X∼Np(μ,Σ),Σ>0,假设有个p阶方阵 A≥0,则有(X−μ)′A(X−μ)∼χ2m,m=tr(AΣ). 当A=Σ−1时, (X−μ)′A(X−μ)∼χ2p.
mnm+n((ˉX−ˉY)−δ)′Σ−1((ˉX−ˉY)−δ)d→χ2(p)
由此得到δ的水平为(1−α)的置信域估计为: D={δ∈Rp:mnm+n((ˉX−ˉY)−δ)′Σ−1((ˉX−ˉY)−δ)≤χ21−α(p)}.
Σ未知
记VX和VY分别为总体X和Y的样本离差阵。
由X和Y的联合密度函数: (2π)−(m+n)p/2|Σ|−(m+n)/2⋅exp{−12tr[Σ−1(VX+VY+m(ˉX−μ1)(ˉX−μ1)′+n(ˉY−μ2)(ˉY−μ2)′)]}
记V=VX+VY,并令 : T2=mn(m+n−2)m+n((ˉX−ˉY)−δ)′V−1((ˉX−ˉY)−δ)
3.3 多元正态分布的检验
本质上就是求似然比、知道一般形式、原则。
考,但是不会考复杂的。最多找一个非常简单的东西写一个似然比。
多元正态分布的检验问题包括:
单总体 | 多总体 | 多变量 |
---|---|---|
均值检验 | 均值比较检验 | 独立性检验 |
协方差检验 | 协方差比较检验 | 条件独立性检验 |
--- | 均值和协方差同时比较检验 | --- |
3.3.0 均值向量的改进估计
总体均值向量μ的极大似然估计ˆμ=ˉx, 定义用ˉx估计μ的损失函数为L(ˉx,μ)≥0.
- L(ˉx,μ)>0:取值越大,表示ˉx离μ的距离越来越远,损失越来越大。
- L(ˉx,μ)=0:用ˉx估计μ没有损失。
实际问题中,对于均值向量μ的估计,希望找到一个对于所有的(μ,Σ), 几乎处处使得风险函数=0的估计。但是实际上这样的估计通常是不存在的,因此我们退而求其次,希望找到一个估计ˆμ, 使得其风险函数小于ˉx的风险,或者不比ˉx的风险大。这就是改进估计。
Σ已知
令ˉx=(ˉx1,…,ˉxp)′,μ=(μ1,…,μp)′, 平方和损失函数定义为:
L(ˉx,μ)=n∑i=1(ˉxi−μi)′(ˉxi−μi)=(ˉx−μ)′(ˉx−μ)
- 当p=1,2时:在平方和损失函数下,样本均值ˉx是总体均值μ的容许估计,改进不存在。
- 当p$3时:样本均值x是总体均值$的不容许估计。
极大似然估计:
设X=(x1,…,xn)′是来自多元正态总体X∼Np(μ,Σ)的样本,其中n>p,μ∈Rp,Σ>0. L(μ,Σ)=n∏i=11(2π)p2|Σ|12exp[−12(xi−μ)′Σ−1(xi−μ)]=1(2π)np/2|Σ|n/2exp[−12n∑i=1(xi−μ)′Σ−1(xi−μ)]=1(2π)np/2|Σ|n/2exp[−12tr(Σ−1{n∑i=1(xi−μ)(xi−μ)′})]=1(2π)np/2|Σ|n/2exp[−12tr(Σ−1{V+n(ˉx−μ)(ˉx−μ)′})]
首先给定 Σ>0 时,求 μ 的极大似然估计,即求对数似然函数 lnL(μ,Σ) 的极大值点。由式(5.3),给定 Σ>0,关于 μ 的对数似然函数为 lnL(μ,Σ)=−npln2π−n2ln|Σ|−12tr(Σ−1{V+n(ˉx−μ)(ˉx−μ)′})=−npln2π−n2ln|Σ|−tr(Σ−1V)−n2(ˉx−μ)′Σ−1(ˉx−μ)≤−npln2π−n2ln|Σ|−tr(Σ−1V)上式不等式中等号成立当且仅当 μ=ˉx。因此,总体均值向量 μ 的极大似然估计为样本均值向量 ˉx。由E(ˉx)=μ,因此,样本均值向量 ˉx 是 μ 的无偏估计。 将上式中的 μ 用它的极大似然估计 ˉx 替换,得到 Σ 的似然函数为: L(ˉx,Σ)=(2π)np/2|Σ|n/2exp[−12tr(Σ−1V)]令 Σ−1/2VΣ−1/2=UAU′,其中 U 是正交矩阵,Λ=diag(λ1,⋯,λp) 是对角矩阵,则上式可以简化为 L(ˉx,Σ)=1(2π)np/2|V|n/2p∏k=1[λn/2kexp{−λk2}]由于 f(x)=xn/2exp{−x/2} 在 x=n 处取最大值,所以上式在 λ1=⋯=λp=n 时取最大值,从而可知,Σ 的极大似然估计 ˆΣ 满足条件 ˆΣ−1/2VˆΣ−1/2=nIp。由此可见,Σ 的极大似然估计为 ˆΣ=V/n。定理5.1.2 设 xi=(xi1,⋯,xip)′(i=1,⋯,n) 为来自 p 元正态总体 Np(μ,Σ) 的一组随机样本,n>p,ˉx 为样本均值向量,V 为样本离差阵,则 μ 和 Σ 的极大似然估计分别为 ˆμ=ˉx 和 ˆΣ=V/n。
3.3.1 单总体均值检验
设X=(x1,x2,⋯,xn)是来自多元正态总体Np(μ,Σ)的n个独立样本,其中μ∈Rp,Σ>0,n>p。 我们关心如下总体均值μ的检验问题: H0:μ=μ0,v.s.H1:μ≠μ0
似然比检验方法
假设我们有一个统计模型,参数空间为Θ, 其中包含了所有可能的参数值。检验问题通常表述为: H0:θ∈Θ0,v.s.H1:θ∈Θ1=Θ∖Θ0
H0表述为参数θ属于一个特定的子集Θ0, H1表述为参数θ不属于原假设所定义的子集Θ0, 即属于Θ中除Θ0之外的所有可能值。符号 表示集合的差集运算。记样本X下的似然函数为L(θ|X)=f(X|θ)。 似然比定义为在原假设 H0 下,似然函数的最大值与在整个参数空间 Θ 下的似然函数最大值之比。 λ=supθ∈Θ0L(θ|X)supθ∈ΘL(θ|X)
此处写的是上确界(所有上界中最小的一个),即使L(θ|x)没有最大元素,但上确界仍然存在 ,这是sup与max的区别。似然比检验统计量为 : T=−2ln(λ)=−2lnsupθ∈Θ0L(θ|X)supθ∈ΘL(θ|X)
可以通过T在零假设H0下的分布(零分布)构造检验的拒绝域。
(1) Σ已知的情形
均值参数μ的似然比
L(ˉx,Σ)=1(2π)np/2|Σ|n/2exp[−12tr(Σ−1{V+n(ˉx−μ)(ˉx−μ)′})]λ=supθ∈Θ0L(θ|X)supθ∈ΘL(θ|X)=exp{−12tr(Σ−1(n(ˉx−μ0)(ˉx−μ0)′))}supμ∈Rp[exp{−12tr(Σ−1(n(ˉx−μ)(ˉx−μ)′))}]=exp{−12n(ˉx−μ0)′Σ−1(ˉx−μ0)}supμ∈Rp[exp{−12n(ˉx−μ)′Σ−1(ˉx−μ)}]=exp{−12n(ˉx−μ0)′Σ−1(ˉx−μ0)}exp{−12n(ˉx−ˆμ)′Σ−1(ˉx−ˆμ)},ˆμ=ˉx=exp{−12n(ˉx−μ0)′Σ−1(ˉx−μ0)}
(2) Σ未知的情形
记V0=∑ni=1(xi−μ0)(xi−μ0)′=V+n(ˉx−μ0)′(ˉx−μ0) 参数μ的似然比为 (Σ=1n−1V): λ=supΣ[|Σ|−n/2exp{−12tr(Σ−1(V+n(ˉx−μ0)(ˉx−μ0)′))}]sup{μ,Σ}[|Σ|−n/2exp{−12tr(Σ−1(V+n(ˉx−μ)(ˉx−μ)′))}]=supΣ[|Σ|−n/2exp{−12tr(Σ−1V0)}]sup{μ,Σ}[|Σ|−n/2exp{−12tr(Σ−1(V+n(ˉx−μ)(ˉx−μ)′))}]=|ˆΣ0|−n/2exp{−12tr(ˆΣ−10V0)}|ˆΣ|−n/2exp{−12tr(ˆΣ−1(V+n(ˉx−ˆμ)(ˉx−ˆμ)′))}
根据Hotelling T2分布的性质有:
T2d→T2p(n−1)n−p(n−1)pT2d→F(p,n−p)
检验的p值为: pv=Pr(Fp,n−p≥n−p(n−1)pT2)
栗子(检验单总体、两总体均值)
(1): 在正态假设下,哥特式教堂的长度和中殿长度是否与罗马式教堂具有相同的均值?

计算哥特式教堂数据的ˉx,V:
ˉx=(121.1222.84),V=(19466.702257.902257.90469.56)
(2): 哥特式教堂的长度与罗马式教堂长度是否具有相同的均值?
这实际上是一个单总体正态分布检测。哥特式教堂的样本协方差阵:
S=Vn−1=(19466.70/152257.90/152257.90/15469.56/15)=(12977.78150.53150.5331.3)=(s11s12s21s22)
p=Pr{|t(15)||t_1|}=2Pr(t(15))=0.017 $$ 总结:p≤α因此认为哥特式教堂的长度与罗马式教堂长度没有相同均值。
(3):
哥特式教堂的中殿高度与罗马式教堂的中殿高度是否具有相同的均值?
t2=√nˉX2−22.69√s22=4×22.84−22.69√31.3=0.107p=Pr{|t(15)|≥|t2|}=2Pr(t(15)≥0.107)=0.916>0.05
两种教堂长度和中殿高度的比较问题(例1续)
如果设定 μ∗0=(13121)。
考虑如下的协方差阵 Σ
未知时的均值检验问题: H0:μ=μ∗0,v.s.H1:μ≠μ∗0
1') 哥特式教堂的长度与罗马式教堂长度是否有相同均值的t - 检验、p值:
t∗1=√n⋅ˉX1−131√S∗11=√16⋅121.12−131√1297.78=−1.097p=Pr{|t(15)|≥|t∗1|}=2Pr{t(15)≤−1.097}=0.290>0.05
2') 哥特式教堂的中殿高度与罗马式教堂的中殿高度是否有相同均值的t -
检验、p值: t∗2=√n⋅ˉX2−21√S∗22=√16⋅22.84−21√31.30=1.315p=Pr{|t(15)|≥|t∗2|}=2Pr{t(15)≥1.315}=0.208>0.05
3.3.2 两个多元总体均值比较的检验
记 X=(x1,⋯,xm) 和 Y=(y1,⋯,yn) 分别为来自总体 Np(μ1,Σ) 和 Np(μ2,Σ) 的独立样本,μ1,μ2∈Rp,Σ>0,min(m,n)>p。
两个总体均值是否相等的检验问题为: H0:μ1=μ2,v.s.H1:μ1≠μ2
(1) Σ 已知的情形
(μ1,μ2)
的似然函数为(去掉常数项): L(μ1,μ2)=exp{−12[m(ˉx−μ1)′Σ−1(ˉx−μ1)+n(ˉy−μ2)′Σ−1(ˉy−μ2)]}ˆμ0=mˉx+nˉym+n=∑mi=1xi+∑nj=1yjm+n
检验问题的似然比为: λ=supμL(μ,μ)sup{μ1,μ2}L(μ1,μ2)=exp{−12[m(ˉx−ˆμ0)′Σ−1(ˉx−ˆμ0)+n(ˉy−ˆμ0)′Σ−1(ˉy−ˆμ0)]}=exp{−12[mnm+n(ˉx−ˉy)′Σ−1(ˉx−ˉy)]}
m(ˉx−ˆμ0)′Σ−1(ˉx−ˆμ0)+n(ˉy−ˆμ0)′Σ−1(ˉy−ˆμ0)=mnm+n(ˉx−ˉy)′Σ−1(ˉx−ˉy)
![]()
则检验比检验统计量为: T=−2log(λ)=mnm+n(ˉx−ˉy)′Σ−1(ˉx−ˉy)|H0d∼χ2(p)
(2) Σ 未知的情形
记VX和VY分别为总体X和Y的样本离差阵,V=VX+VY。
(μ1,μ2,Σ)
的似然函数为: L(μ1,μ2,Σ)=1|Σ|(m+n)2exp{−12tr[Σ−1(V+m(ˉx−μ1)(ˉx−μ1)′+n(ˉy−μ2)(ˉy−μ2)′)]}
∵m(ˉx−ˆμ0)′Σ−1(ˉx−ˆμ0)+n(ˉy−ˆμ0)′Σ−1(ˉy−ˆμ0)=mnm+n(ˉx−ˉy)′Σ−1(ˉx−ˉy)∴m(ˉx−ˆμ0)(ˉx−ˆμ0)′+n(ˉy−ˆμ0)(ˉy−ˆμ0)′=mnm+n(ˉx−ˉy)(ˉx−ˉy)′
检验问题的似然比为: λ=sup{μ,Σ}L(μ,μ,Σ)sup{μ1,μ2,Σ}L(μ1,μ2,Σ)=(|V1+V2+mn(m+n)(ˉx−ˉy)(ˉx−ˉy)′||V1+V2|)−(m+n)/2=|Ip+mnm+n(V1+V2)−12(ˉx−ˉy)(ˉx−ˉy)′(V1+V2)−12|−(m+n)/2=(1+mnm+n(ˉx−ˉy)′(V1+V2)−1(ˉx−ˉy))−(m+n)/2
MLE小结
似然比检验统计量由似然函数在极大似然估计下的似然函数值决定。
相同协方差阵下正态总体均值和协方差阵的极大似然估计(MLE):
均值 | 协方差阵 |
---|---|
单总体:均值的极大似然估计为样本均值; | 计算在给定均值极大似然估计下协方差阵的似然函数: |
多总体:各总体均值无约束的极大似然估计为各自的样本均值; | |Σ|−n/2exp{−12tr(Σ−1W)} |
多总体:在各总体均值相等的约束条件下,均值的极大似然估计为将所有样本看成是来自同一总体时的样本均值; | 其中W是仅与数据有关的正定矩阵,则协方差矩阵的极大似然估计ˆΣ=W/n。 |
Ch4 多元线性模型
不考的:(有些不太确定)
rank(X)=r<k广义逆
有约束的最小二乘基本定理
左乘:有约束化为无约束-线性假设检验
右乘:均值子集的线性假设
多元线性回归模型中参数估计、假设检验、选取变量
多元线性模型的均值置信域和预测域
4.1 多元线性模型
要清楚多元线性模型中的每一个参数都代表什么、考基于矩阵形式
知道最小二乘估计的形式
理论上的总体形式,一元线性模型的定义: y=x′β+ϵ
而有了数据之后,可以写成矩阵的形式,估计它的最小二乘。 Y=Xβ+ϵˆβ=(X′X)−1X′Y
假设有n组观测(x1,y1),⋯,(xn,yn)。 记Y=(y1,⋯,yn)′,X=(x1,⋯,xn)′,e=(ϵ1,⋯,ϵn)′。
x 和 y 由向量转变为矩阵,原先只是在Rk,Rp空间,现在在Rnk,Rnp空间。
多元线性模型的定义如下: Y=XB+e
- Y是n×p阶观测的随机矩阵,n≥p;
- X是已知的n×k阶设计矩阵,n≥k,rank(X)=r≤k; (3)
- 是k×p阶的未知回归系数矩阵;
- e是n×p阶不可观测的随机误差矩阵。
Y=(y(11)y(12)⋯y(1p)y(21)y(22)⋯y(2p)⋮⋮⋱⋮y(n1)y(n2)⋯y(np))=(y′1y′2⋮y′n)=(Y(1),⋯,Y(p))′X=(x(11)x(12)⋯x(1k)x(21)x(22)⋯x(2k)⋮⋮⋱⋮x(n1)x(n2)⋯x(nk))=(x′1x′2⋮x′n)e=(ϵ(11)ϵ(12)⋯ϵ(1p)ϵ(21)ϵ(22)⋯ϵ(2p)⋮⋮⋱⋮ϵ(n1)ϵ(n2)⋯ϵ(np))=(ϵ′1ϵ′2⋮ϵ′n)=(ϵ(1),⋯,ϵ(p))′
模型 Y=XB+e 化为 y(ij)=x′iβj+ϵ(ij),1≤i≤n,1≤j≤p。
我们假定ε服从正态分布,只在特别情况下会说明只假定一、二阶矩存在(有界)的情形。
Q: 一阶矩、二阶矩?
A: 矩(moment)是用来描述随机变量分布特性的数字量度。
- 一阶矩:均值、E[X]=μ
- 二阶矩:方差、协方差:Var(X)=E[(X−E(X))2],Cov(X,Y)=E[(X−E(X))(Y−E(Y))]
假设ε∼Nn×p(0,Σ⊗In),其中误差协方差阵Σ是未知的p阶正定矩阵。 由e′=(ε1,⋯,εn),知ε1,⋯,εn独立同分布,且ε1d Np(0,Σ)。
e∼Nn×p(0,Σ⊗In),则Y∼Nn×p(XB,Σ⊗In)。 则有 : y′i=x′iB+ε′i∼Np(x′iB,Σ),1≤i≤n
由于 y′i=x′iB+ε′i,这里的 x′iB 是一个常数向量(因为给定了自变量 x′i 和回归系数 B),而 ε′i 是一个多维正态随机向量。
那么模型 Y=XB+e 可以理解为 :
{E(Y)=XBY的行向量y′1,⋯,y′n是相互独立的正态向量,同协方差阵Σ,Σ>0.
不难得出βj的最小二乘估计为 ˆβj=(X′X)−X′Y(j),1≤j≤p。
若rank(X)=k,则(X′X)−=(X′X)−1.
(X′X)−表示Moore-Penrose伪逆、当X满秩的时候伪逆=真逆)
进而有B的最小二乘估计为 ˆB=(ˆβ1,⋯,ˆβp)=(X′X)−1X′(Y(1),⋯,Y(p))=(X′X)−1X′Y。
Q: 设计矩阵?
A: 设计矩阵(Design Matrix) 是回归分析中的一个重要概念,用于表示回归模型中自变量(或特征)和观测数据之间的关系。对于多元回归模型 Y=XB+e,设计矩阵 X 存储了所有观测点的自变量值。具体来说:
- Y 是因变量的观测矩阵,表示所有观测点和因变量的值。
- X 是设计矩阵,包含所有观测点的自变量(或特征)值,通常是一个 n×k的矩阵,其中:
- n 是观测点的数量(样本数量)。
- k 是自变量的数量(包括常数项,如果有的话)。
例1: p维的正态分布
设Y′=(y1,⋯,yn)是来自Np(μ,Σ)的样本,Σ>0。则 {E(Y)=XB,Y的行向量y′1,⋯,y′n是相互独立的正态向量,协方差阵Σ,Σ>0,
例2: 多元方差分析
设有k个相互独立的总体Yjd∼Np(μj,Σ),k≥2。 yj1,⋯,yjnj是来自总体Yj的样本,1≤j≤k, Σ>0。记n=∑kj=1nj .
这相当于如下的多元线性模型 : {E(Y)=XB,Y的行向量y′1,⋯,y′n是相互独立的正态向量,协方差阵Σ,Σ>0,
4.2 充分统计量
总体上没什么新东西:意思是比较简单、会考
协方差矩阵与之前的一致,只是均值发生变化、体现在期望发生变化
需要能推导、考:列满秩、计算期望、协方差矩阵、线性变换
由等价模型知,Y的行向量y′1,⋯,y′n相互独立,且yid∼Np(x′iB,Σ),1≤i≤n。
那么有Y的密度函数为 : f(Y|B,Σ)=n∏i=11(2π)p/2|Σ|1/2exp{−12(yi−x′iB)′Σ−1(yi−x′iB)}=1(2π)np/2|Σ|n/2exp{12tr[(Y−XB)Σ−1(Y−XB)′]}=1(2π)np/2|Σ|n/2exp{12tr[(Y−XB)′(Y−XB)Σ−1]}=exp{−tr(B′X′XBΣ−1)}(2π)np/2|Σ|n/2exp{12tr(Y′YΣ−1−2B′X′YΣ−1)}
显然Y的分布是指数族分布,(Y′Y,X′Y)是参数(B,Σ)的充分统计量。
注意到,Y的密度还可以写为: f(Y|B,Σ)=1(2π)np/2|Σ|n/2exp{12tr[(Y−XB)′(Y−XB)Σ−1]}=1(2π)np/2|Σ|n/2exp{−12tr[Y′(In−X(X′X)−1X′)YΣ−1]}−12tr[((X′X)−1X′Y−B)′(X′X)((X′X)−1X′Y−B)Σ−1]
下面的这种用于X列非满秩的情况、没有逆,只能使用伪逆。
情形1:rank(X)=k X列满秩
不考广义逆,一定考列满秩的情况。
性质4.1.1
- (X′X)−1X′Yd∼Nk×p(B,Σ⊗(X′X)−1);
- Y′(In−X(X′X)−1X′)Yd∼Wp(n−k,Σ);
- (X′X)−1X′Y与Y′(In−X(X′X)−1X′)Y相互独立。
(1) 证明:由于Yd∼Nn×p(XB,Σ⊗In),即vec(Y)d∼Nnp(XB,Σ⊗In)。 又有 : vec((X′X)−1X′Y)=vec((X′X)−1X′YIp)=(Ip⊗(X′X)−1X′)vec(Y)E[vec((X′X)−1X′Y)]=(Ip⊗(X′X)−1X′)E[vec(Y)]=(Ip⊗(X′X)−1X′)vec(XB)=vec(((X′X)−1X′)(XB)Ip)=vec(B)Cov[vec((X′X)−1X′Y)]=(Ip⊗(X′X)−1X′)Cov[vec(Y)](Ip⊗(X′X)−1X′)′=(Ip⊗(X′X)−1X′)(Σ⊗In)(Ip⊗(X′X)−1X′)′=Σ⊗(X′X)−1
故知vec((X′X)−1X′Y)d∼Nkp(vec(B),Σ⊗(X′X)−1),即(1)成立。(2) 证明:由于Y=XB+e,有 : Y′(In−X(X′X)−1X′)Y=e′(In−X(X′X)−1X′)e
由误差向量的独立同正态分布性知e′d∼Np×n(0,In⊗Σ),而且不难知道In−X(X′X)−1X′是秩为n−k的幂等阵。 由第二章关于随机矩阵二次型的性质5的(1)知 : Y′(In−X(X′X)−1X′)Yd∼Wp(n−k,Σ)即性质(2)成立。(3) 证明:又由第二章关于随机矩阵二次型的性质5的(3)知 : e′(In−X(X′X)−1X′)e与(X′X)−1X′e独立(X′X)−1X′Y=B+(X′X)−1X′e
知(X′X)−1X′Y与Y′(In−X(X′X)−1X′)Y独立.
4.3 参数估计
如果误差是正态:那么可以使用极大似然估计,就可以写似然。最小二乘不一定要有似然,因为没有正态也能进行最小二乘。在二维正态下,二者等价。
参数(B, Σ)的似然函数为(去掉常数) : L(B,Σ|Y)=|Σ|−n/2exp{−12tr[Y′(In−X(X′X)−1X′)YΣ−1]−12tr[((X′X)−1X′Y−B)′(X′X)((X′X)−1X′Y−B)Σ−1]}
(Y−XB)′(Y−XB)=Y′(In−X(X′X)−1X′)Y+((X′X)−1X′Y−B)′X′X((X′X)−1X′Y−B)(Y−XˆB)′(Y−XˆB)=min(Y−XB)′(Y−XB)
ˆB的分布 :
当rank(X)=k时,由性质4.1.1(1)知,
ˆB=(X′X)−1X′Yd∼Nk×p(B,Σ⊗(X′X)−1)
当rank(X)<k时,由性质4.1.1的推论(1'')知,
L′ˆB=L′(X′X)−1X′Yd∼Ns×p(L′B,Σ⊗L′(X′X)−1L)
将ˆB代入似然函数,有: L(ˆB,Σ|Y)=|Σ|−n/2exp{−12tr[Y′(In−X(X′X)−1X′)YΣ−1]}
由性质4.1.1的推论(3)知,˜Σ与ˆB相互独立。
4.3.1 最小二乘估计的基本定理
不考有约束的。
第一基本定理
令R20=minB(Y−XB)′(Y−XB),则 R20d∼Wp(n−r,Σ)
4.6 多元线性回归
考X,写成矩阵形式(?)不太理解
多元线性回归模型的定义如下:
Y=1nβ′0+XB+ε
- 因变量Y是n×p阶可观测的随机矩阵,n≥p;
- 设计矩阵(预报因子)X是已知的n×k阶矩阵,n≥k;
- (β′0,B)称为回归系数,截距β0是p维向量,斜率B是k×p阶矩阵,(β′0,B)未知;
- ε是n×p阶不可观测的随机误差矩阵,εd∼Nn×p(0,Σ⊗In),Σ是未知的p阶正定阵。
行与列向量表示 记Y,X和ε行与列向量分别为 : Y=(y11⋮yn1)=(y(1),⋯,y(p))X=(x′11⋮x′n1)=(x(1),⋯,x(k))ε=(ε11⋮εn1)=(ε(1),⋯,ε(p))
y′i=β′0+x′iB+ε′id∼Np(β′0+x′iB,Σ), 1≤i≤n
若令X∗=(1n,X),B∗=(β′0B),则模型(11)又可以写为:
Y=X∗B∗+ε。
即多元线性回归模型可以转换为多元线性模型。
假定rank(X∗)=k+1,即X列满秩且其列向量与1n线性无关。因此,可以基于多元线性模型的统计推断研究多元线性回归模型。
一些记号: y(j)=(y1j⋮ynj),ˉy=(ˉy1⋮ˉyp)=1nn∑i=1yij, 1≤j≤px(j)=(x1j⋮xnj),ˉx=(ˉx1⋮ˉxk)=1nn∑i=1xij, 1≤j≤k