Schwertlilien
As a recoder: notes and ideas.

多元统计分析-复习(上)

期末复习-上

[TOC]

知识复习

Ch1 多元分布

不考的

  • 特征函数
  • 分块矩阵
  • 偏相关系数、精度矩阵K=Σ1
  • 矩阵拉直、Kronecker积、矩阵分布

1.1 矩阵知识

Cov(AX)=ACov(X)ACov(AX,BY)=ACov(X,Y)B

出送分题,计算二维协方差矩阵,对角线是方差Var(X),非对角线是协方差Cov(X,Y).

1.2 多元正态分布

似然=密度。会算似然比、极大似然估计。

1.2.1 密度函数

p元随机向量X服从参数为μ,Σ的多元正态分布,其概率密度函数为: p(x)=(2π)p2|Σ|12exp{12(xμ)Σ1(xμ)}

其中μRpΣ为p阶正定矩阵,记为XdNp(μ,Σ)

1.2.2 线性变换(基本)

定理1:设p元随机向量X=μ+AY, 其中μRk,Ak×p的行满秩矩阵,kp, 随机向量YdNp(0,Ip), 则XdNk(μ,Σ), 其中Σ=AA>0.

p元标准正态分布:YdNp(0,Ip)

性质

给出的基本都要考。

性质 说明: XdN(μ,Σ)
密度函数 p(x)=(2π)p2Σ12exp{12(xμ)Σ1(xμ)}
期望方差 E(X)=μ,Cov(X)=Σ
线性变换 Y=η+AX,ηRk,Ak×p,YdNk(η+Aμ,AΣA)
相互独立 X1,,Xk相互独立,XidNp(μi,Σi),1ik, 则ki=1αiXidNp(ki=1αiμi,ki=1α2iΣi)
卡方分布 Σ>0, 则(Xμ)Σ1(Xμ)dχ2p, 其中χ2p是自由度为p的卡方分布。
边缘分布 X=(X(q)1X(pq)2),μ=(μ1μ2),Σ=(Σ11Σ12Σ21Σ22),则X(q)1dNq(μ1,Σ11),X(pq)2oversetdNpq(μ2,Σ22)
分量独立性 X=(X(q1)1X(qk)k),Σ=(Σ11Σ1kΣk1Σkk),则X(qi)i,X(qj)j(1i<jk)相互独立的充要条件Cov(Xqii,X(qj)j)=Σij=0.
条件分布 (X1|X2=x2)dNq(μ1|2,Σ1|2),其中μ1|2=E(X1|X2=x2)=μ1+Σ12Σ122(x2μ2),Σ1|2=Cov(X1|X2=x2)=Σ11Σ12Σ122Σ21.(Σ1|2Σ11)

条件分布考:给出公式计算即可。

1.3 相关系数

计算相关系数,定义知道即可。 pij=Cov(Xi,Xj)Var(Xi)Var(Xj)=σijσiiσjj

Ch2 由多元正态分布导出的分布

不考的

  • Wishart密度函数、部分性质
  • 非中心的Hotelling T2分布
  • Wilks分布

2.1 Wishart分布

考一个Wishart分布小性质。

设随机向量X=(X1,,Xn),其中X1,,Xn i.i.d.(独立同分布),每个Xi都遵循一个多维正态分布 XidNp(0,Σ)1in

p阶Wishart分布:称p阶随机矩阵W=XX=ni=1XiXi的分布为p阶Wishart分布,记为 $ WW_p(n,),n$称为其自由度

2.1.1 性质

简要说明 性质
1.分布期望 WdWp(n,Σ),则 E(W)=nΣ
2.线性变换 WdWp(n,Σ)Ck×p 阶矩阵,则 CWCdWk(n,CΣC)
似考非考

2.2 Hotelling T2分布

Hotelling T2分布:设XdNp(0,Σ),WdWp(n,Σ),且XW相互独立。记为T2=nXW1X.

得到的是数。注意X,Y的协方差矩阵相同Σ且独立。

进行置信检验使用F分布而不是T2.因为T2本身就能化成F分布。

Ch3 多元正态分布的估计与检验

不考的:

  • 极大似然估计中的正交分解
  • 样本相关系数的精确分布和渐进分布
  • ρ=0的假设检验
  • 渐进分布的区间估计(渐进正态性)、方差齐性变换
  • 正态总体均值的Bayes估计
  • 多元BF问题
  • 多元方差分析
  • 独立性检验(很重要,但是不考)、条件独立性检验
  • 多重比较

3.1 多元正态分布样本统计量

X1,X2,,Xn为来自多元正态总体Np(μ,Σ)的独立样本,其中μRpΣ>0n>p。记:

metric 公式 说明
样本均值 ¯X=n1ni=1Xi 无偏估计,即E(¯X)=μ
样本离差阵 V=ni=1(Xi¯X)(Xi¯X) 衡量了样本点相对于样本均值的离散程度。
样本协方差阵 S=1n1V 对离差阵进行归一化

事实:(¯X,V)(μ,Σ)的完全充分统计量, 这意味着¯XV包含了样本中关于总体参数μΣ的所有信息。

3.1.1 (ˉX, V) 的分布性质

  1. ˉXNp(μ,Σ/n)
  2. VWp(n1,Σ)
  3. ˉXV相互独立。

证明:

(1)记 X=(X1,,Xn),则有 E(X)=μ1nCov(vec(X))=InΣ

U=(U1,U2,,Un)n阶正交矩阵,其中: U1=(1n,1n,,1n)=1n1n1nUj=n(1n1n)Uj=nUiUj=0

U的第一列 U1被特别选择为与样本均值方向相关的向量。令 Y=XU记为 (Y1,Y2,,Yn),则Y1代表了样本均值方向上的信息, Y2,,Yn则代表了与样本均值正交的剩余信息。 E(Y)=E(X)U=μ1nU=μ1n(1n1n,U2,,Un)=(nμ,0,,0)Cov(vec(Y))=Cov(vec(IpXU))=Cov((UIp)vec(X))=(UIp)Cov(vec(X))(UIp)=(UIp)(InΣ)(UIp)=InΣ
从上面的Cov(Y)=InΣ可以得到:Y1,Y2,,Yn相互独立,且Y1=nˉXNp(nμ,Σ)Y2,,YnNp(0,Σ)。 因而有ˉXNp(μ,Σ/n),即(1)成立。

(2)由于YY=(XU)(UX)=XX,即ni=1XiXi=ni=1YiYi,因而有 V=ni=1XiXinˉXˉX=ni=1XiXiY1Y1=ni=1YiYiY1Y1=ni=2YiYiWp(n1,Σ)

所以(2)成立。 又由于nˉX=Y1V=ni=2YiYi,因此ˉXV独立,即(3)成立。

3.2 多元正态分布的参数估计

密度函数给出,根据密度函数写似然。

3.2.1 极大似然估计

观测样本X=(X1,X2,,Xn)的联合密度: f(X)=(2π)np2|Σ|n2exp{12trΣ1(V+n(ˉXμ)(ˉXμ))}

首先求μ的极大似然估计: f(X)=(2π)np2|Σ|n2exp{12trΣ1(V+n(ˉXμ)(ˉXμ))}=(2π)np2|Σ|n2exp{12trΣ1Vn2trΣ1(ˉXμ)(ˉXμ)}=(2π)np2|Σ|n2exp{12trΣ1Vn2(ˉXμ)Σ1(ˉXμ)}
易知μ的极大似然估计为maxf(X)=(ˉXμ)Σ1(ˉXμ)=0ˆμ=ˉX。 即正态总体均值的极大似然估计是样本均值。

3.2.2 样本相关系数

样本相关系数是总体相关系数的估计,与其差距有多大,使用分布刻画。

知道样本相关系数可以检验X和Y独立,不考。

Υ=(ρij)p×p为正态总体的相关系数矩阵,并记V=(vij)p×pS=(sij)p×p,则ρij的极大似然估计为: ˆρij=rij=vijviivjj=sijsiisjj,1i,jp

R=(rij)p×p为样本相关系数矩阵。

3.2.3 正态总体均值的置信域估计

考:Σ已知时化成χ2分布、Σ未知时化成T2分布-->F分布

等价于似然比检验和区间估计、使用输入量构造统计量、与似然比殊途同归。

A.单总体

x1,,xn是来自p元正态总体Np(μ,Σ)的随机样本,其中μRp,Σ>0,n>p. 上面给出了总体均值向量μ和总体协方差矩阵Σ的无偏估计分别是样本均值向量ˉx和样本协方差矩阵S. 下面讨论μ的置信域估计问题,分别在总体协方差阵Σ已知和未知的两种情况下讨论。

Σ已知

如果总体协方差矩阵 Σ已知,样本均值向量 ˉx的分布可以通过标准化后的形式来推导出: n(ˉXμ)Σ1(ˉXμ)dχ2(p)

μ的水平为(1α)的置信域估计为: D={μRp:n(ˉXμ)Σ1(ˉXμ)χ21α(p)}
即有 D=1.意味着在大量的重复实验中,置信域 D将包含真实总体均值 μ的概率为 1α

Q: χ2分布与置信域的联系?

A: 具体来说,样本均值 ˉx和总体均值 μ之间的偏差经过标准化后(即通过协方差矩阵的逆来标准化)符合 2(p)分布。这意味着,我们可以通过卡方分布的分位点来构建置信区间。

置信域 D中21(p)是卡方分布自由度为 p时,置信度为 (1α)的分位点。这表示总体均值 μ在给定的样本数据下落入该置信域的概率为 1α

Σ未知

因为Σ我们无从得知,所以使用Σ的无偏估计S=1n1V来代替。令 : T2=n(ˉXμ)S1(ˉXμ)=n(n1)(ˉXμ)V1(ˉXμ)T2p(n1)

由正态样本统计量的性质知 :n(ˉXμ)dN(0,Σ), VdWp(n1,Σ), 且${X} V$独立.

Hotelling T2分布性质如下:

性质 说明
1. XW1Xd=χ2(p)χ2(np+1),其中分子分母相互独立;
2. np+1npT2p(n)d=χ2(p)/pχ2(np+1)/(np+1)dF(p,(np+1))

因此有: T2=(n1)(n(ˉXμ))V1(n(ˉXμ))dT2p(n1)1n1T2=n(ˉXμ)V1(ˉXμ)dχ2(p)χ2(np)np(n1)pT2dχ2(p)/pχ2(np)/(np)dF(p,np)

则当Σ未知时,μ的水平为(1α)的置信域估计为 : D={μRp:n(np)p(ˉXμ)V1(ˉXμ)F1α(p,np)}
即有 D=1.

PS: 因为这个置信域D是一个二次型,那么上述的不等式就是对这个二次型的约束,所以,这个置信域是一个超椭球。

  • 协方差矩阵 V的逆 V1定义了椭球的方向和形状,特征值决定了每个方向上的伸缩因子。
  • F分布的临界值 F1α(p,np)确定了超椭球的大小。
B.两总体

设独立总体XdNp(μ1,Σ)YdNp(μ2,Σ)μ1,μ2RpΣ>0。 (属于同一维度空间,但分布不同。)

X=(X1,,Xm)Y=(Y1,,Yn)分别为来自总体XY的样本,min{m,n}>p。 我们要构造总体均值差δ=μ1μ2的置信域估计。

已知:

已知条件 对应公式
样本X的样本离差阵和协方差矩阵 V1=ni=1(xiˉx)(xiˉx),S1=1n1V1
样本Y的样本离差阵和协方差矩阵 V2=ni=1(yiˉy)(yiˉy),S2=1n1V2

我们下面讨论的问题是:

  1. Σ1=Σ2=Σ: ①Σ未知,②Σ已知
  2. Σ1Σ2这种情况在本课程中不涉及,下面也不会涉及

因此下面对于Σ未知、Σ已知的考虑的前提是Σ1=Σ2=Σ.

Σ已知

ˉXdNp(μ1,Σ/m)ˉYdNp(μ2,Σ/n),有: (ˉXˉY)dNp(δ,(1m+1n)Σ)=Np(δ,mnm+nΣ)

根据二次型的性质:XNp(μ,Σ),Σ>0,假设有个p阶方阵 A0,则有(Xμ)A(Xμ)χ2m,m=tr(AΣ). 当A=Σ1时, (Xμ)A(Xμ)χ2p.

mnm+n((ˉXˉY)δ)Σ1((ˉXˉY)δ)dχ2(p)

由此得到δ的水平为(1α)的置信域估计为: D={δRp:mnm+n((ˉXˉY)δ)Σ1((ˉXˉY)δ)χ21α(p)}.

Σ未知

VXVY分别为总体XY的样本离差阵。

XY的联合密度函数: (2π)(m+n)p/2|Σ|(m+n)/2exp{12tr[Σ1(VX+VY+m(ˉXμ1)(ˉXμ1)+n(ˉYμ2)(ˉYμ2))]}

(μ1,μ2,Σ)的极大似然估计为(ˉX,ˉY,(VX+VY)/(m+n))

V=VX+VY,并令 : T2=mn(m+n2)m+n((ˉXˉY)δ)V1((ˉXˉY)δ)

由于(ˉXˉY)V相互独立,且 mnm+n((ˉXˉY)δ)dNp(0,Σ),VdWp(m+n2,Σ)T2dT2p(m+n2)
进而可知 m+np1(m+n2)pT2=(m+np1)mn(m+n)(m+n2)p((ˉXˉY)δ)V1((ˉXˉY)δ)dF(p,m+np1)
由此得到δ的水平为(1α)的置信域估计为 D={δRp:(m+np1)mn(m+n)p((ˉXˉY)δ)V1((ˉXˉY)δ)F1α(p,m+np1)}

3.3 多元正态分布的检验

本质上就是求似然比、知道一般形式、原则。

考,但是不会考复杂的。最多找一个非常简单的东西写一个似然比。

多元正态分布的检验问题包括:

单总体 多总体 多变量
均值检验 均值比较检验 独立性检验
协方差检验 协方差比较检验 条件独立性检验
--- 均值和协方差同时比较检验 ---

3.3.0 均值向量的改进估计

总体均值向量μ的极大似然估计ˆμ=ˉx, 定义用ˉx估计μ的损失函数为L(ˉx,μ)0.

  • L(ˉx,μ)>0:取值越大,表示ˉxμ的距离越来越远,损失越来越大。
  • L(ˉx,μ)=0:用ˉx估计μ没有损失。

实际问题中,对于均值向量μ的估计,希望找到一个对于所有的(μ,Σ), 几乎处处使得风险函数=0的估计。但是实际上这样的估计通常是不存在的,因此我们退而求其次,希望找到一个估计ˆμ, 使得其风险函数小于ˉx的风险,或者不比ˉx的风险大。这就是改进估计。

Σ已知

ˉx=(ˉx1,,ˉxp),μ=(μ1,,μp), 平方和损失函数定义为: L(ˉx,μ)=ni=1(ˉxiμi)(ˉxiμi)=(ˉxμ)(ˉxμ)

一个好的估计希望平方损失越小越好,在统计决策理论中,损失函数的平均值称为风险函数。ˉx作为μ的估计,它在平方和损失函数下的风险函数为: R(ˉx)=E[L(ˉx,μ)]=E[(ˉxμ)(ˉxμ)]=tr{E[(ˉxμ)(ˉxμ)]}=tr(Σ)n
ˉx的风险函数R(ˉx)只依赖于Σ,与μ无关。

  • 当p=1,2时:在平方和损失函数下,样本均值ˉx是总体均值μ的容许估计,改进不存在。
  • 当p$3x$的不容许估计。

极大似然估计:

X=(x1,,xn)是来自多元正态总体XNp(μ,Σ)的样本,其中n>p,μRp,Σ>0. L(μ,Σ)=ni=11(2π)p2|Σ|12exp[12(xiμ)Σ1(xiμ)]=1(2π)np/2|Σ|n/2exp[12ni=1(xiμ)Σ1(xiμ)]=1(2π)np/2|Σ|n/2exp[12tr(Σ1{ni=1(xiμ)(xiμ)})]=1(2π)np/2|Σ|n/2exp[12tr(Σ1{V+n(ˉxμ)(ˉxμ)})]

首先给定 Σ>0 时,求 μ 的极大似然估计,即求对数似然函数 lnL(μ,Σ) 的极大值点。由式(5.3),给定 Σ>0,关于 μ 的对数似然函数为 lnL(μ,Σ)=npln2πn2ln|Σ|12tr(Σ1{V+n(ˉxμ)(ˉxμ)})=npln2πn2ln|Σ|tr(Σ1V)n2(ˉxμ)Σ1(ˉxμ)npln2πn2ln|Σ|tr(Σ1V)
上式不等式中等号成立当且仅当 μ=ˉx。因此,总体均值向量 μ 的极大似然估计为样本均值向量 ˉx。由E(ˉx)=μ,因此,样本均值向量 ˉxμ 的无偏估计。 将上式中的 μ 用它的极大似然估计 ˉx 替换,得到 Σ 的似然函数为: L(ˉx,Σ)=(2π)np/2|Σ|n/2exp[12tr(Σ1V)]
Σ1/2VΣ1/2=UAU,其中 U 是正交矩阵,Λ=diag(λ1,,λp) 是对角矩阵,则上式可以简化为 L(ˉx,Σ)=1(2π)np/2|V|n/2pk=1[λn/2kexp{λk2}]
由于 f(x)=xn/2exp{x/2}x=n 处取最大值,所以上式在 λ1==λp=n 时取最大值,从而可知,Σ 的极大似然估计 ˆΣ 满足条件 ˆΣ1/2VˆΣ1/2=nIp。由此可见,Σ 的极大似然估计为 ˆΣ=V/n

定理5.1.2xi=(xi1,,xip)(i=1,,n) 为来自 p 元正态总体 Np(μ,Σ) 的一组随机样本,n>pˉx 为样本均值向量,V 为样本离差阵,则 μΣ 的极大似然估计分别为 ˆμ=ˉxˆΣ=V/n

3.3.1 单总体均值检验

X=(x1,x2,,xn)是来自多元正态总体Np(μ,Σ)n个独立样本,其中μRpΣ>0n>p。 我们关心如下总体均值μ的检验问题: H0:μ=μ0,v.s.H1:μμ0

ˉxV分别是样本均值和样本离差阵。

似然比检验方法

假设我们有一个统计模型,参数空间为Θ, 其中包含了所有可能的参数值。检验问题通常表述为: H0:θΘ0v.s.H1:θΘ1=ΘΘ0

H0表述为参数θ属于一个特定的子集Θ0, H1表述为参数θ不属于原假设所定义的子集Θ0, 即属于Θ中除Θ0之外的所有可能值。符号  表示集合的差集运算。

记样本X下的似然函数为L(θ|X)=f(X|θ)。 似然比定义为在原假设 H0 下,似然函数的最大值与在整个参数空间 Θ 下的似然函数最大值之比。 λ=supθΘ0L(θ|X)supθΘL(θ|X)

此处写的是上确界(所有上界中最小的一个),即使L(θ|x)没有最大元素,但上确界仍然存在 ,这是sup与max的区别。

似然比检验统计量为 : T=2ln(λ)=2lnsupθΘ0L(θ|X)supθΘL(θ|X)

可以通过T在零假设H0下的分布(零分布)构造检验的拒绝域。

(1) Σ已知的情形

均值参数μ的似然比 L(ˉx,Σ)=1(2π)np/2|Σ|n/2exp[12tr(Σ1{V+n(ˉxμ)(ˉxμ)})]λ=supθΘ0L(θ|X)supθΘL(θ|X)=exp{12tr(Σ1(n(ˉxμ0)(ˉxμ0)))}supμRp[exp{12tr(Σ1(n(ˉxμ)(ˉxμ)))}]=exp{12n(ˉxμ0)Σ1(ˉxμ0)}supμRp[exp{12n(ˉxμ)Σ1(ˉxμ)}]=exp{12n(ˉxμ0)Σ1(ˉxμ0)}exp{12n(ˉxˆμ)Σ1(ˉxˆμ)},ˆμ=ˉx=exp{12n(ˉxμ0)Σ1(ˉxμ0)}

因此似然比检验统计量为 T=2ln(λ)=n(ˉxμ0)Σ1(ˉxμ0)
故当T>χ21α(p)时拒绝零假设,其犯第一类错误的概率为α

(2) Σ未知的情形

V0=ni=1(xiμ0)(xiμ0)=V+n(ˉxμ0)(ˉxμ0) 参数μ的似然比为 (Σ=1n1V): λ=supΣ[|Σ|n/2exp{12tr(Σ1(V+n(ˉxμ0)(ˉxμ0)))}]sup{μ,Σ}[|Σ|n/2exp{12tr(Σ1(V+n(ˉxμ)(ˉxμ)))}]=supΣ[|Σ|n/2exp{12tr(Σ1V0)}]sup{μ,Σ}[|Σ|n/2exp{12tr(Σ1(V+n(ˉxμ)(ˉxμ)))}]=|ˆΣ0|n/2exp{12tr(ˆΣ10V0)}|ˆΣ|n/2exp{12tr(ˆΣ1(V+n(ˉxˆμ)(ˉxˆμ)))}

其中ˆΣ0是原假设H0为真时:μ=μ0,Σ>0时的极大似然估计。 ˆΣ0=1nni=1(xiμ0)(xiμ0)
分母中的ˆμ,ˆΣ是当μRp,Σ>0时,μ,Σ的极大似然估计。 ˆμ=ˉxˆΣ=1nni=1(xiˉx)(xiˉx)=Vn
继续计算λ, 分母后面的exp因为ˆμ=ˉx所以等于0,e0=1;且ˆΣ0=V0n有: $$ λ=|V0n|n/2enp2|Vn|n/2,enp2=|V0|n/2|V|n/2=(|V|+n(ˉxμ0)(ˉxμ0)|V|)n/2=|Ip+nV1/2(ˉxμ0)(ˉxμ0)V1/2|n/2=(1+n(ˉxμ0)V1(ˉxμ0))n/2
$λ$$H0:μ=μ0$,$H1$.$H0:μ=μ0$$n(n1)(ˉxμ0)V1(ˉxμ0)T2p(n1)$,
T^{2}=n(n - 1)({x}-{0})'V{-1}({x}-{0})=n({x}-{0})'S{-1}({x}-{0}) $$ 为检验统计量。并在T2较大时拒绝原假设H0, 从而认为备择假设H1成立。

根据Hotelling T2分布的性质有: T2dT2p(n1)np(n1)pT2dF(p,np)

则当np(n1)pT2>F1α(p,np)时拒绝零假设,其犯第一类错误的概率为α

检验的p值为: pv=Pr(Fp,npnp(n1)pT2)

栗子(检验单总体、两总体均值)

(1): 在正态假设下,哥特式教堂的长度和中殿长度是否与罗马式教堂具有相同的均值?

image-20241208213813501

计算哥特式教堂数据的ˉx,V: ˉx=(121.1222.84),V=(19466.702257.902257.90469.56)

n=16,p=2, H0:μ=μ0,v.s.H1:μμ0,μ0=(145.2922.69), Σ未知。 T2=n(n1)(ˉXμ0)V1(ˉXμ0)=17.283
设定显著性水平为α=0.05, 计算检验的p值: pv=Pr(Fp,npnp(n1)pT2)=Pr(F(2,14)8.0654)=0.0047<0.05
结论:故拒绝零假设,μμ0, 认为哥特式教堂和罗马式教堂没有相同的长度和中殿高度。

(2): 哥特式教堂的长度与罗马式教堂长度是否具有相同的均值?

这实际上是一个单总体正态分布检测。哥特式教堂的样本协方差阵: S=Vn1=(19466.70/152257.90/152257.90/15469.56/15)=(12977.78150.53150.5331.3)=(s11s12s21s22)

t-检验与检验的p值: $$ t_1=n =4 =-2.648\\

p=Pr{|t(15)||t_1|}=2Pr(t(15))=0.017 $$ 总结:pα因此认为哥特式教堂的长度与罗马式教堂长度没有相同均值。

(3): 哥特式教堂的中殿高度与罗马式教堂的中殿高度是否具有相同的均值? t2=nˉX222.69s22=4×22.8422.6931.3=0.107p=Pr{|t(15)||t2|}=2Pr(t(15)0.107)=0.916>0.05

总结:p>α因此认为哥特式教堂的中殿高度与罗马式教堂的中殿高度具有相同的均值.

两种教堂长度和中殿高度的比较问题(例1续)

如果设定 μ0=(13121)。 考虑如下的协方差阵 Σ 未知时的均值检验问题: H0:μ=μ0v.s.H1:μμ0

此时HotellingT2 检验统计量、计算的p值为 : T2=n(n1)(ˉXμ0)V1(ˉXμ0)=11.507p=P{F(p,np)np(n1)pT2}=P{F(2,14)5.370}=0.019
结论:拒绝零假设。

1') 哥特式教堂的长度与罗马式教堂长度是否有相同均值的t - 检验、p值: t1=nˉX1131S11=16121.121311297.78=1.097p=Pr{|t(15)||t1|}=2Pr{t(15)1.097}=0.290>0.05

结论:因此认为哥特式教堂的长度与罗马式教堂长度有相同均值。

2') 哥特式教堂的中殿高度与罗马式教堂的中殿高度是否有相同均值的t - 检验、p值: t2=nˉX221S22=1622.842131.30=1.315p=Pr{|t(15)||t2|}=2Pr{t(15)1.315}=0.208>0.05

结论:因此认为哥特式教堂的中殿高度与罗马式教堂的中殿高度有相同的均值。

3.3.2 两个多元总体均值比较的检验

X=(x1,,xm)Y=(y1,,yn) 分别为来自总体 Np(μ1,Σ)Np(μ2,Σ) 的独立样本,μ1,μ2RpΣ>0min(m,n)>p

两个总体均值是否相等的检验问题为: H0:μ1=μ2v.s.H1:μ1μ2

注意:此时两个总体的协方差阵相等。 记 ˉxˉy 分别为总体 XY 的样本均值。

(1) Σ 已知的情形

(μ1,μ2) 的似然函数为(去掉常数项): L(μ1,μ2)=exp{12[m(ˉxμ1)Σ1(ˉxμ1)+n(ˉyμ2)Σ1(ˉyμ2)]}ˆμ0=mˉx+nˉym+n=mi=1xi+nj=1yjm+n

μ1=μ2=μ 时,μ 的极大似然估计是 ˆμ0

检验问题的似然比为: λ=supμL(μ,μ)sup{μ1,μ2}L(μ1,μ2)=exp{12[m(ˉxˆμ0)Σ1(ˉxˆμ0)+n(ˉyˆμ0)Σ1(ˉyˆμ0)]}=exp{12[mnm+n(ˉxˉy)Σ1(ˉxˉy)]}

m(ˉxˆμ0)Σ1(ˉxˆμ0)+n(ˉyˆμ0)Σ1(ˉyˆμ0)=mnm+n(ˉxˉy)Σ1(ˉxˉy)

image-20241210134445146

则检验比检验统计量为: T=2log(λ)=mnm+n(ˉxˉy)Σ1(ˉxˉy)|H0dχ2(p)

T>χ21α(p) 时拒绝零假设,其犯第一类错误的概率为 α

(2) Σ 未知的情形

VXVY分别为总体XY的样本离差阵,V=VX+VY

(μ1,μ2,Σ) 的似然函数为: L(μ1,μ2,Σ)=1|Σ|(m+n)2exp{12tr[Σ1(V+m(ˉxμ1)(ˉxμ1)+n(ˉyμ2)(ˉyμ2))]}

μ1,u2Rp,Σ>0时,μ1μ2的极大似然估计分别为:ˆμ1=ˉx,ˆμ2=ˉyΣ的极大似然估计为ˆΣ=V1+V2/(n+m).在原假设H0成立时(μ1=μ2=μ),μ的极大似然估计为ˆμ0=(nˉx+mˉy)/(n+m). 在原假设H0成立时,将似然函数L(μ1,μ2,Σ)中的均值向量μ1=μ2=ˆμ0, 从而得到原假设H0成立时的Σ的似然函数为: L(Σ)=1|Σ|(m+n)2exp{12tr[Σ1(V1+V2+m(ˉxˆμ0)(ˉxˆμ0)+n(ˉyˆμ0)(ˉyˆμ0))]}ˆΣ0=V1+V2+m(ˉxˆμ0)(ˉxˆμ0)+n(ˉyˆμ0)(ˉyˆμ0)m+nˆΣ0=V1+V2+mnm+n(ˉxˉy)(ˉxˉy)m+n

m(ˉxˆμ0)Σ1(ˉxˆμ0)+n(ˉyˆμ0)Σ1(ˉyˆμ0)=mnm+n(ˉxˉy)Σ1(ˉxˉy)m(ˉxˆμ0)(ˉxˆμ0)+n(ˉyˆμ0)(ˉyˆμ0)=mnm+n(ˉxˉy)(ˉxˉy)

检验问题的似然比为: λ=sup{μ,Σ}L(μ,μ,Σ)sup{μ1,μ2,Σ}L(μ1,μ2,Σ)=(|V1+V2+mn(m+n)(ˉxˉy)(ˉxˉy)||V1+V2|)(m+n)/2=|Ip+mnm+n(V1+V2)12(ˉxˉy)(ˉxˉy)(V1+V2)12|(m+n)/2=(1+mnm+n(ˉxˉy)(V1+V2)1(ˉxˉy))(m+n)/2

令 : T2=mn(m+n2)m+n(ˉxˉy)(V1+V2)1(ˉxˉy)T2|H0dT2p(m+n2)
T2为检验统计量,在原假设H0为真(μ1=μ2)时,T2dT2p(m+n2), 且在T2较大时拒绝原假设H0, 从而认为备择假设H1成立(μ1μ2). 再根据Hotelling T2分布的性质: 1(m+n2)T2p(n+m2)d=χ2pχ2m+np1(m+np1)(m+n2)pT2dF(p,m+np1)pv=Pr(F1α(p,m+np1)(m+np1)(m+n2)pT2)
因此,当p<α 时拒绝零假设, 其犯第一类错误的概率为 α

MLE小结

似然比检验统计量由似然函数在极大似然估计下的似然函数值决定。

相同协方差阵下正态总体均值和协方差阵的极大似然估计(MLE)

均值 协方差阵
单总体:均值的极大似然估计为样本均值; 计算在给定均值极大似然估计下协方差阵的似然函数:
多总体:各总体均值无约束的极大似然估计为各自的样本均值; |Σ|n/2exp{12tr(Σ1W)}
多总体:在各总体均值相等的约束条件下,均值的极大似然估计为将所有样本看成是来自同一总体时的样本均值; 其中W是仅与数据有关的正定矩阵,则协方差矩阵的极大似然估计ˆΣ=W/n

Ch4 多元线性模型

不考的:(有些不太确定)

  • rank(X)=r<k广义逆

  • 有约束的最小二乘基本定理

  • 左乘:有约束化为无约束-线性假设检验

    右乘:均值子集的线性假设

  • 多元线性回归模型中参数估计、假设检验、选取变量

  • 多元线性模型的均值置信域和预测域

4.1 多元线性模型

要清楚多元线性模型中的每一个参数都代表什么、考基于矩阵形式

知道最小二乘估计的形式

理论上的总体形式,一元线性模型的定义: y=xβ+ϵ

其中,β=(β1,,βk)Rk是模型参数, ϵ是随机误差,E(ϵ|x)=0

而有了数据之后,可以写成矩阵的形式,估计它的最小二乘。 Y=Xβ+ϵˆβ=(XX)1XY

yx的关系可表示为如下p个一元线性模型: y(i)=xβi+ϵ(i)
1ip, 其中,β1,,βpRk是每个子线性模型的参数, ϵ(i)是每个因变量对应的随机误差,E(ϵ(i)|x)=01ip

假设有n组观测(x1,y1),,(xn,yn)。 记Y=(y1,,yn)X=(x1,,xn)e=(ϵ1,,ϵn)

x 和 y 由向量转变为矩阵,原先只是在Rk,Rp空间,现在在Rnk,Rnp空间。

多元线性模型的定义如下: Y=XB+e

其中:

  1. Yn×p阶观测的随机矩阵,np
  2. X是已知的n×k阶设计矩阵,nkrank(X)=rk; (3)
  3. k×p阶的未知回归系数矩阵;
  4. en×p阶不可观测的随机误差矩阵。

Y=(y(11)y(12)y(1p)y(21)y(22)y(2p)y(n1)y(n2)y(np))=(y1y2yn)=(Y(1),,Y(p))X=(x(11)x(12)x(1k)x(21)x(22)x(2k)x(n1)x(n2)x(nk))=(x1x2xn)e=(ϵ(11)ϵ(12)ϵ(1p)ϵ(21)ϵ(22)ϵ(2p)ϵ(n1)ϵ(n2)ϵ(np))=(ϵ1ϵ2ϵn)=(ϵ(1),,ϵ(p))

模型 Y=XB+e 化为 y(ij)=xiβj+ϵ(ij)1in1jp

我们假定ε服从正态分布,只在特别情况下会说明只假定一、二阶矩存在(有界)的情形。

Q: 一阶矩、二阶矩?

A: 矩(moment)是用来描述随机变量分布特性的数字量度。

  • 一阶矩:均值、E[X]=μ
  • 二阶矩:方差、协方差:Var(X)=E[(XE(X))2],Cov(X,Y)=E[(XE(X))(YE(Y))]

假设εNn×p(0,ΣIn),其中误差协方差阵Σ是未知的p阶正定矩阵。 由e=(ε1,,εn),知ε1,,εn独立同分布,且ε1d Np(0,Σ)eNn×p(0,ΣIn),则YNn×p(XB,ΣIn)。 则有 : yi=xiB+εiNp(xiB,Σ),1in

由于 yi=xiB+εi,这里的 xiB 是一个常数向量(因为给定了自变量 xi 和回归系数 B),而 εi 是一个多维正态随机向量。

那么模型 Y=XB+e 可以理解为 : {E(Y)=XBYy1,,ynΣ,Σ>0.

Y=(Y(1),,Y(p)),B=(β1,,βp),e=(ε(1),,ε(p)),则有: Y(j)=Xβj+ε(j),1jp
即模型Y=XB+e可以分解为p个一元线性模型,这p个一元线性模型有相同的设计矩阵X

不难得出βj的最小二乘估计为 ˆβj=(XX)XY(j)1jp

rank(X)=k,则(XX)=(XX)1.

(XX)表示Moore-Penrose伪逆、当X满秩的时候伪逆=真逆)

进而有B的最小二乘估计为 ˆB=(ˆβ1,,ˆβp)=(XX)1X(Y(1),,Y(p))=(XX)1XY

Q: 设计矩阵?

A: 设计矩阵(Design Matrix) 是回归分析中的一个重要概念,用于表示回归模型中自变量(或特征)和观测数据之间的关系。对于多元回归模型 Y=XB+e,设计矩阵 X 存储了所有观测点的自变量值。具体来说:

  • Y 是因变量的观测矩阵,表示所有观测点和因变量的值。
  • X 是设计矩阵,包含所有观测点的自变量(或特征)值,通常是一个 n×k的矩阵,其中:
    • n 是观测点的数量(样本数量)。
    • k 是自变量的数量(包括常数项,如果有的话)。

例1: p维的正态分布

Y=(y1,,yn)是来自Np(μ,Σ)的样本,Σ>0。则 {E(Y)=XB,Yy1,,ynΣ,Σ>0,

其中,设计矩阵X=1n, B=μ

例2: 多元方差分析

设有k个相互独立的总体YjdNp(μj,Σ)k2yj1,,yjnj是来自总体Yj的样本,1jk, Σ>0。记n=kj=1nj .

这相当于如下的多元线性模型 : {E(Y)=XB,Yy1,,ynΣ,Σ>0,

其中, X=(1n10001n20001nk)n×k阶对角分块矩阵, B=(μ1μ2μk)k×p阶矩阵。

4.2 充分统计量

总体上没什么新东西:意思是比较简单、会考

协方差矩阵与之前的一致,只是均值发生变化、体现在期望发生变化

需要能推导、考:列满秩、计算期望、协方差矩阵、线性变换

由等价模型知,Y的行向量y1,,yn相互独立,且yidNp(xiB,Σ)1in

那么有Y的密度函数为 : f(Y|B,Σ)=ni=11(2π)p/2|Σ|1/2exp{12(yixiB)Σ1(yixiB)}=1(2π)np/2|Σ|n/2exp{12tr[(YXB)Σ1(YXB)]}=1(2π)np/2|Σ|n/2exp{12tr[(YXB)(YXB)Σ1]}=exp{tr(BXXBΣ1)}(2π)np/2|Σ|n/2exp{12tr(YYΣ12BXYΣ1)}

上面X是固定的、Y才是变量。不同体现在期望是xiB.

显然Y的分布是指数族分布,(YY,XY)是参数(B,Σ)的充分统计量。

注意到,Y的密度还可以写为: f(Y|B,Σ)=1(2π)np/2|Σ|n/2exp{12tr[(YXB)(YXB)Σ1]}=1(2π)np/2|Σ|n/2exp{12tr[Y(InX(XX)1X)YΣ1]}12tr[((XX)1XYB)(XX)((XX)1XYB)Σ1]

可见((XX)1XY,Y(InX(XX)1X)Y)也是(B,Σ)的充分统计量。 平方和分解公式(协方差矩阵的估计) : (YXB)(YXB)=Y(InX(XX)1X)Y+(XX)1XYB)XX((XX)1XYB)

下面的这种用于X列非满秩的情况、没有逆,只能使用伪逆。

情形1:rank(X)=k X列满秩

不考广义逆,一定考列满秩的情况。

性质4.1.1
  1. (XX)1XYdNk×p(B,Σ(XX)1)
  2. Y(InX(XX)1X)YdWp(nk,Σ)
  3. (XX)1XYY(InX(XX)1X)Y相互独立。

(1) 证明:由于YdNn×p(XB,ΣIn),即vec(Y)dNnp(XB,ΣIn)。 又有 : vec((XX)1XY)=vec((XX)1XYIp)=(Ip(XX)1X)vec(Y)E[vec((XX)1XY)]=(Ip(XX)1X)E[vec(Y)]=(Ip(XX)1X)vec(XB)=vec(((XX)1X)(XB)Ip)=vec(B)Cov[vec((XX)1XY)]=(Ip(XX)1X)Cov[vec(Y)](Ip(XX)1X)=(Ip(XX)1X)(ΣIn)(Ip(XX)1X)=Σ(XX)1

故知vec((XX)1XY)dNkp(vec(B),Σ(XX)1),即(1)成立。

(2) 证明:由于Y=XB+e,有 : Y(InX(XX)1X)Y=e(InX(XX)1X)e

由误差向量的独立同正态分布性知edNp×n(0,InΣ),而且不难知道InX(XX)1X是秩为nk的幂等阵。 由第二章关于随机矩阵二次型的性质5的(1)知 : Y(InX(XX)1X)YdWp(nk,Σ)
即性质(2)成立。

(3) 证明:又由第二章关于随机矩阵二次型的性质5的(3)知 : e(InX(XX)1X)e(XX)1Xe(XX)1XY=B+(XX)1Xe

(XX)1XYY(InX(XX)1X)Y独立.

4.3 参数估计

如果误差是正态:那么可以使用极大似然估计,就可以写似然。最小二乘不一定要有似然,因为没有正态也能进行最小二乘。在二维正态下,二者等价。

参数(B, Σ)的似然函数为(去掉常数) : L(B,Σ|Y)=|Σ|n/2exp{12tr[Y(InX(XX)1X)YΣ1]12tr[((XX)1XYB)(XX)((XX)1XYB)Σ1]}

易知B的极大似然估计为 : ˆB=(XX)1XY
注意到平方和分解 :
(YXB)(YXB)=Y(InX(XX)1X)Y+((XX)1XYB)XX((XX)1XYB)(YXˆB)(YXˆB)=min(YXB)(YXB)
ˆB也是B的最小二乘估计。

ˆB的分布 :

rank(X)=k时,由性质4.1.1(1)知, ˆB=(XX)1XYdNk×p(B,Σ(XX)1)

ˆBB的无偏估计,且Cov(vec(ˆB))=Σ(XX)1

rank(X)<k时,由性质4.1.1的推论(1'')知, LˆB=L(XX)1XYdNs×p(LB,ΣL(XX)1L)

其中L=XC。则LˆBLB的无偏估计,其协差阵为ΣL(XX)1L

ˆB代入似然函数,有: L(ˆB,Σ|Y)=|Σ|n/2exp{12tr[Y(InX(XX)1X)YΣ1]}

因此,Σ的极大似然估计为 ˆΣ=1nY(InX(XX)1X)Y
再将ˆBˆΣ代入似然函数,有: maxB,ΣL(B,Σ|Y)=|ˆΣ|n/2exp{nρ2}=|Y(InX(XX)1X)Y|n/2(ne)np/2
由性质4.1.1的推论(2)知, Y(InX(XX)1X)YdWp(nr,Σ)˜Σ=1nrY(InX(XX)1X)Y
易知E(˜Σ)=Σ,即˜ΣΣ的无偏估计。

由性质4.1.1的推论(3)知,˜ΣˆB相互独立。

4.3.1 最小二乘估计的基本定理

不考有约束的。

第一基本定理

R20=minB(YXB)(YXB),则 R20dWp(nr,Σ)

其中rank(X)=r

4.6 多元线性回归

考X,写成矩阵形式(?)不太理解

多元线性回归模型的定义如下:
Y=1nβ0+XB+ε

其中:

  1. 因变量Yn×p阶可观测的随机矩阵,np
  2. 设计矩阵(预报因子)X是已知的n×k阶矩阵,nk
  3. (β0,B)称为回归系数,截距β0p维向量,斜率Bk×p阶矩阵,(β0,B)未知;
  4. εn×p阶不可观测的随机误差矩阵,εdNn×p(0,ΣIn)Σ是未知的p阶正定阵。

行与列向量表示YXε行与列向量分别为 : Y=(y11yn1)=(y(1),,y(p))X=(x11xn1)=(x(1),,x(k))ε=(ε11εn1)=(ε(1),,ε(p))

因此,由模型知:
yi=β0+xiB+εidNp(β0+xiB,Σ), 1in
β0=(β01,,β0p)B=(β1,,βp),则有 : y(j)=1nβ0j+Xβj+ε(j), 1jp
因此,模型可以分解成p个一元线性回归模型,这p个一元线性回归模型有相同的设计矩阵X

若令X=(1n,X)B=(β0B),则模型(11)又可以写为:

Y=XB+ε

即多元线性回归模型可以转换为多元线性模型。

假定rank(X)=k+1,即X列满秩且其列向量与1n线性无关。因此,可以基于多元线性模型的统计推断研究多元线性回归模型。

一些记号: y(j)=(y1jynj),ˉy=(ˉy1ˉyp)=1nni=1yij, 1jpx(j)=(x1jxnj),ˉx=(ˉx1ˉxk)=1nni=1xij, 1jk

最后有点不确定。

搜索
匹配结果数:
未搜索到匹配的文章。