多元正态统计-Ch3-多元正态分布的检验
绷不住了,上一篇写了6天??!乐,这篇时间更久捏。
[TOC]
接续上篇,依旧讲多元正态分布,聚焦于检验部分。
主要的计算步骤:
- 计算极大似然估计,得到极大似然估计量,比如
之类。 - 然后计算似然比:
- 得到似然比检验统计量:
/或者是其他的统计量,主要看 服从何分布。
3.3 多元正态分布的检验
多元正态分布的检验问题包括:
单总体 | 多总体 | 多变量 |
---|---|---|
均值检验 | 均值比较检验 | 独立性检验 |
协方差检验 | 协方差比较检验 | 条件独立性检验 |
—- | 均值和协方差同时比较检验 | —- |
3.3.0 均值向量的改进估计
总体均值向量
:取值越大,表示 离 的距离越来越远,损失越来越大。 :用 估计 没有损失。
实际问题中,对于均值向量
已知
令
一个好的估计希望平方损失越小越好,在统计决策理论中,损失函数的平均值称为风险函数。
- 当p=1,2时:在平方和损失函数下,样本均值
是总体均值 的容许估计,改进不存在。 - 当p
3时:样本均值 是总体均值 的不容许估计。
极大似然估计:
设
是来自多元正态总体 的样本,其中 . 首先给定
时,求 的极大似然估计,即求对数似然函数 的极大值点。由式(5.3),给定 ,关于 的对数似然函数为 上式不等式中等号成立当且仅当
。因此,总体均值向量 的极大似然估计为样本均值向量 。由 ,因此,样本均值向量 是 的无偏估计。 将上式中的 用它的极大似然估计 替换,得到 的似然函数为: 令
,其中 是正交矩阵, 是对角矩阵,则上式可以简化为 由于
在 处取最大值,所以上式在 时取最大值,从而可知, 的极大似然估计 满足条件 。由此可见, 的极大似然估计为 。 定理5.1.2 设
为来自 元正态总体 的一组随机样本, , 为样本均值向量, 为样本离差阵,则 和 的极大似然估计分别为 和 。
3.3.1 单总体均值检验
设
记
似然比检验方法
假设我们有一个统计模型,参数空间为
, 其中包含了所有可能的参数值。检验问题通常表述为:
表述为参数 属于一个特定的子集 , 表述为参数 不属于原假设所定义的子集 , 即属于 中除 之外的所有可能值。符号 \ 表示集合的差集运算。 记样本
下的似然函数为 。 似然比定义为在原假设 下,似然函数的最大值与在整个参数空间 下的似然函数最大值之比。 此处写的是上确界(所有上界中最小的一个),即使
没有最大元素,但上确界仍然存在 ,这是sup与max的区别。 似然比检验统计量为 :
可以通过
在零假设 下的分布(零分布)构造检验的拒绝域。
(1) 已知的情形
均值参数
因此似然比检验统计量为
故当
(2) 未知的情形
记
其中
分母中的
继续计算
利用似然比原理,在
为检验统计量。并在
根据Hotelling
则当
检验的p值为:
栗子(检验单总体、两总体均值)
(1): 在正态假设下,哥特式教堂的长度和中殿长度是否与罗马式教堂具有相同的均值?
计算哥特式教堂数据的
n=16,p=2,
设定显著性水平为
结论:故拒绝零假设,
(2): 哥特式教堂的长度与罗马式教堂长度是否具有相同的均值?
这实际上是一个单总体正态分布检测。哥特式教堂的样本协方差阵:
t-检验与检验的p值:
总结:
(3): 哥特式教堂的中殿高度与罗马式教堂的中殿高度是否具有相同的均值?
总结:
两种教堂长度和中殿高度的比较问题(例1续)
如果设定
此时Hotelling
结论:拒绝零假设。
1’) 哥特式教堂的长度与罗马式教堂长度是否有相同均值的t - 检验、p值:
结论:因此认为哥特式教堂的长度与罗马式教堂长度有相同均值。
2’) 哥特式教堂的中殿高度与罗马式教堂的中殿高度是否有相同均值的t - 检验、p值:
结论:因此认为哥特式教堂的中殿高度与罗马式教堂的中殿高度有相同的均值。
3.3.2 两个多元总体均值比较的检验
记
两个总体均值是否相等的检验问题为:
注意:此时两个总体的协方差阵相等。 记
(1) 已知的情形
当
检验问题的似然比为:
则检验比检验统计量为:
当
(2) 未知的情形
记
当
因为
检验问题的似然比为:
令 :
取
因此,当
MLE小结
似然比检验统计量由似然函数在极大似然估计下的似然函数值决定。
相同协方差阵下正态总体均值和协方差阵的极大似然估计(MLE):
均值 | 协方差阵 |
---|---|
单总体:均值的极大似然估计为样本均值; | 计算在给定均值极大似然估计下协方差阵的似然函数: |
多总体:各总体均值无约束的极大似然估计为各自的样本均值; | |
多总体:在各总体均值相等的约束条件下,均值的极大似然估计为将所有样本看成是来自同一总体时的样本均值; | 其中 |
3.3.3 多元Behrens - Fisher问题
记
Behrens - Fisher问题:即在
(1) 的情形
令
即单总体协方差阵未知时均值是否为0的检验。
因为X,Y同是n维“向量”,所以可将
作为一个单独的多元正态总体, . 所以检验 就是检验 .
(2) 的情形
检验统计量为:
其中,
2.1) 有限样本下的近似分布
在零假设
相应检验的
2.2) 渐近分布 (总体不服从正态分布)
或者是,没有证据表明总体服从正态分布。因此,我们将其渐渐近为正态分布来计算。
假设
则当
也可以用
Q:
分布的一阶校正是什么? A: 一阶校正(First-Order Correction)在统计学中指的是对某一统计量的分布进行调整,以提高其与理论分布(如卡方分布
)的拟合度,尤其是在样本量较小或其他条件不完全满足时。这种校正旨在减少近似分布与实际分布之间的偏差,从而提高假设检验的准确性和可靠性。通过一阶校正, 统计量在有限样本下的分布更接近于 分布,从而提高了假设检验的准确性。 Bartlett校正(Bartlett Correction):
Bartlett校正是最常见的一阶校正方法之一,主要应用于似然比检验(Likelihood Ratio Test, LRT)中。其基本思想是通过引入一个校正因子,调整似然比统计量,使其在有限样本下的均值更接近卡方分布的均值。
定义:设
为未校正的似然比统计量,其期望值在原假设下通常为自由度的数目,但在有限样本下可能偏离。Bartlett校正通过引入一个校正因子 ,定义校正后的统计量为: 使得
的期望值更接近于 分布的自由度 。 Hotelling的
检验中的一阶校正: 当样本量不等时,检验统计量
的分布在有限样本下并不完全符合卡方分布 ,因此需要进行一阶校正以提高检验的准确性。 具体步骤:
计算未校正的
统计量: 其中,
, 和 分别是两个样本的离差平方和矩阵。 计算Bartlett校正因子
: 校正因子的具体计算公式依赖于具体的检验方法和样本数据。在Hotelling的
检验中, 通常基于样本量、变量数目和样本协方差矩阵的特性来确定。 计算校正后的统计量
: 确定检验的p值:
使用校正后的统计量
,根据卡方分布 计算p值: 另外,可以尝试似然比统计量及其渐近分布。
Wilks定理: (Wilks定理 为这些似然比检验提供了理论基础,说明在原假设成立时,检验统计量的渐近分布为卡方分布。)
在正则条件下,对检验问题:
似然比检验统计量:
在零假设下有极限分布:
其中
。
例:Behrens - Fisher检验问题
其中,
代入公式得自由度
1 | import numpy as np |
因此检验的
结论:拒绝零假设。
3.3.4 多元方差分析
设有
考虑检验问题:
我们要检验的是 k 个多元正态总体均值向量是否都相同。
似然函数为 :
其中,
似然函数的推导:
给定参数
的前提下,各个样本来自互相独立的多元正态总体,因此联合似然函数可表示为: 其中多元正态密度函数为:
将所有样本合并,取对数似然函数
,再略去与参数无关的常数项并经过一定的矩阵代数运算与整理(使用迹的运算属性),最终得到 在这里,我们可以看到似然函数中分为两部分:
:反映了所有组内部的变异信息(各组样本点围绕各自组均值 的变异)。 :反映了样本组均值与总体均值 之间的偏差。
(1) 已知的情形
检验问题的似然比为:
则似然比检验统计量为 :
在原假设的大样本情形下,T渐近服从
若观测到的检验统计量
(2) 未知的情形
SSW为组内离差阵 (Sum of Squares Within),SST为总离差阵 (Total Sum of Squares),记为:
由前面的分析有:
利用似然比原理,在
因此,当
定理3.1 在原假设
成立时,有如下结论成立: 且
与 相互独立。 证明:
记
,其中 , 记 为 的全1矩阵,并令 不难推知有 :
又知
和 都是幂等阵,且: 在零假设下,它们的分布与共同的
无关, 因此可设 是服从 的矩阵正态分布, 由 Wishart 分布二次型的性质得证定理。
当总体数
p/k | 检验统计量 |
---|---|
p=1 | |
k=2 | |
p=2 | |
k=3 |
例:多元方差分析
检验问题:这3种生产方法对完成任务是否有差异?
本例中,总体个数
3个总体的样本量
假设3个总体均为正态,且协方差阵
计算3个总体的样本离差阵为
计算组内离差阵、组间离差阵为:
因此可以计算出Wilks检验统计量:
记
由于总体个数
因此检验的
结论:因为 p 值比 0.05 小得多,所以结论是有显著差异。如选用标准显著性水平
3.3.5 多元均值和方差的同时检验
设有
考虑检验问题:
似然函数为 :
先考虑两个似然比 :
则总似然比为:
很难推导似然比
由Wilks定理知 :
若
思考下列检验问题:
检验问题 | 原假设 |
备择假设 |
---|---|---|
单样本协方差阵检验 | ||
单样本均值和协方差阵的联合检验 | ||
多总体协方差阵比较问题 |
参考思路:
- 计算似然比检验统计量。
- 再由Wilks定理导出检验统计量的渐近分布。
- 构造检验方案。
例:检验多总体协方差阵是否相等
问题:3种生成方法的协方差阵是否相等?
即3总体的协方差的比较问题:
检验的似然比为:
由Wilks定理知 (p=4, k=3,
经计算,有 :
结论:没有足够证据拒绝零假设,即认为3个总体的协方差阵相等.
3.3.6 独立性检验
设
其中,
我们感兴趣的问题是:
对应的检验问题为:
考虑似然比检验。 似然函数为(去掉常数项) :
我们将
在零假设
则似然比统计量为:
由Wilks定理知
其中自由度的计算如下:
精确分布
考虑
相应的似然比为
又由矩阵的分块运算知
因此
由于
服从分布 | |
---|---|
特别地,当
例: 独立性检验
检验问题:
计算离差阵的行列式有:
由于
结论:拒绝原假设,认为
当
时,似然比为: 可由样本相关系数矩阵
的分布给出检验方案。
3.3.7 条件独立性检验
将
因此,在
再将
其中
理解每个
为 维: 假设我们在研究某种疾病的患者数据,收集了以下几类信息:
:健康指标
: 血压 :血糖水平 : 胆固醇水平 收缩压(Systolic Blood Pressure, SBP) 空腹血糖(Fasting Blood Glucose, FBG) 总胆固醇(Total Cholesterol, TC) 舒张压(Diastolic Blood Pressure, DBP) 高密度脂蛋白胆固醇(High-Density Lipoprotein, HDL) 低密度脂蛋白胆固醇(Low-Density Lipoprotein, LDL) X₂人口统计信息: 年龄(Age)、性别(Gender)
变量划分:
总体变量:
p=8
(血压2维,血糖1维,胆固醇3维)。
(年龄1维,性别1维)。 对
有: 所以,有
.总的来说,是对一个 的多元正态总体的n在不断的划分。
感兴趣的问题是:在给定
对应的检验问题为:
A. 检验统计量的构造
将样本离差阵$V$作相应剖分 $V=\begin{pmatrix}V_{11}&V_{12}\\V_{21}&V_{22}\end{pmatrix}$, 计算在$X_2$给定后$X_1$的样本条件离差阵 $W = V_{1|2}=V_{11}-V_{12}V_{22}^{-1}V_{21}$。
由于$V\stackrel{d}{\sim}W_p(n - 1,\Sigma)$,有 $W\stackrel{d}{\sim}W_{q_1}(n - q_2 - 1,\Sigma_{1|2})$。
注意:此时,$W$可以看成是:
- 均值为 $\mu_{1|2}=E(X_1|X_2=x_2)=\mu_1+\Sigma_{12}\Sigma_{22}^{-1}(x_2-\mu_2)$
- 协方差阵为 $\Sigma_{1|2}=Cov(X_1|X_2=x_2)=\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}$
的$q_1$维正态总体的$n - q_2$个(虚拟)独立样本的样本离差阵。
再将样本条件离差阵$W$作相应剖分:
其中,
相似地,基于这组虚拟样本,可得检验的似然比为 :
再利用3.3.6中的独立性检验结果导出检验统计量的精确分布或渐近分布。
例:条件独立性检验
检验问题:给定
经计算,可得给定
本例中,
因此,条件独立性检验的似然比的值为 :
本例中,
检验的
作业:两总体均值检验
设
①线性变换:令
②根据似然比做:直接比较在原假设和备择假设下的最大似然值,判断是否拒绝原假设。
在
题目给出
检验问题的似然比为:
令 :
因此,当
Q:
是怎么得到? A: 通过极大似然估计得到,下面是具体过程。
我们有两个独立的
维正态总体: 其中,协方差矩阵
是相同的且未知的。我们从每个总体中分别抽取了独立的样本:
- 总体
:样本 - 总体
:样本 样本量满足
,以确保检验的有效性。我们要检验的假设为: 步骤1:构造似然函数: 对于两个总体
和 ,其联合似然函数为两个独立正态分布的乘积: 步骤2:对数似然函数为了简化计算,我们取对数似然函数:
步骤3:在原假设
下最大化似然函数: 在原假设 下,我们有 。因此,对数似然函数变为: 求导:
由于
,则 对
的求偏导数同理。
- 对数似然函数中涉及
的部分:
- 对
的偏导数为零:
- 解得: