Schwertlilien
As a recoder: notes and ideas.

多元统计分析-复习(下)

期末复习2

各分析考试占比较少。

[TOC]

Ch5 相关分析

不考的:

  • 样本复相关系数分布(独立性检验,不考)
  • 典型相关分析所有k步、作用
  • 样本典型相关分析
  • 典型相关变量个数检验
  • 广义相关系数

5.1 复相关系数

5.1.1 总体复相关系数

知道基本定义即可。证明说是很简单,那么有可能考。

变量与向量之间的复相关系数为:

其中,

定义的过程:设随机向量,其中

分别剖分为:

其中,阶正定阵。

考虑之间的简单相关系数,其中

则定义的复相关系数为:

的非负性、Cauchy - Schwarz不等式知 :

定理 1: 当时,的方差取得最小值:最接近,

的相关系数最大,为复相关系数,本质上刻画了的线性相关程度。

证明: 对任意,有 :

由于,则有:

方差关系有:

由定理1知:达最小意味着最接近,即最接近。

因此可以用个预报因子的线性组合来预测单个因变量,其最优斜率为,最优截距为

注意到:

条件期望是最优(方差最小)的线性预测。

5.1.2 样本复相关系数

在总体复相关系数的基础上,用样本估计替换。

设总体,其样本为。考虑的剖分

分别为样本均值、样本离差阵和样本协差阵,并对它们作相应剖分。

则由的复相关系数:

定义的样本复相关系数为:

以及的估计为。不难知道,它们分别是复相关系数和方向的极大似然估计。

5.2 典型相关分析定义

不太确定定义考不考,所以列上了。

分别为p维和q维随机向量:,其协方差矩阵为:

其中:正定。

设a和b分别为p维和q维任意非零的常数向量:

由于相关系数不受a和b常数倍的影响,为简单起见,对进行标准化,令:

(书p485)定理13.1.1的最大相关系数为:

在标准化的方差约束条件下,最大值在时达到,其中分别为矩阵的最大特征值和最大特征值对应的特征向量。

Ch6 PCA

不考的:

  • R-PCA
  • 样本-PCA
  • PCA-统计推断
  • PCA-检验问题

基本上考的方式: PCA=方差最大

  • 给出计算好的,指出第一、第二主成分。

  • 对应的第一主成分是什么意思?对应的方差是多少?把特征根分解写出来。

  • 顶多考一下基本概念。

维随机向量(),我们想基于,找到变量(的线性组合),令的方差尽可能地大,足以代表的散布。

因为,这表明若不对施加约束,则的最大方差

所以对施加正则化约束:,使得优化问题为:

的特征根为,与这些特征根对应的正则正交特征向量为。 易知:

则第一主成份:

  • 方向:总体协差阵的最大特征根所对应的正则特征向量。
  • 方差:总体协差阵的最大特征根。

Ch7 因子分析

知道有这种模型,知道概念。

会写其协方差矩阵,

反推说简答的考, 推测考点

  • 正交因子模型协方差结构检验、写似然比
  • 斜交旋转(因为简单)

  • 因子得分(只是反过来当回归估计)

不考的

  • 因子载荷矩阵的估计、极大似然估计
  • 极大似然估计的迭代算法
  • 公共因子>2

7.1 正交因子模型

, .

具有因子结构(相互独立):

维常数向量 阶常数矩阵
因子载荷矩阵 公共因子 特殊因子

注意:因子载荷矩阵并不唯一,因为对任意阶正交矩阵,有:

7.2 因子载荷矩阵的表示

Q: 在给定的相关阵和对角阵的条件下,如何求解

约相关阵:

易知,的对角元素为,其它元素与一样,且非负定。

记$R^r^_{ij}=\sum^m_{k=1}a_{ik} a_{jk},\ 1\le j,k\le p$.

目标:求解的各列,使得“贡献”.

要求:使得达到最大值的解。

利用特征根和特征向量求解:

的特征根,其对应的正则正交特征向量分别为。 则 :

其中的秩。

7.4 因子旋转-方差最大的正交旋转(Varimax旋转)

先考虑两个因子的正交旋转,设因子载荷矩阵和正交矩阵为:

, T是旋转矩阵。

目标:旋转后,因子的“贡献”越分散越好。

结果:可分为两部分,一部分主要与第一因子有关,另一部分主要与第二因子有关。

定义的相对方差:

其中表示因子对的影响;要求使得总方差最大,即求:

记:()

此法具有显式解:

进而得正交矩阵:

取得的方差是有界(其成分都是有界的)、故一定会收敛。

在旋转的同时,都会更接近收敛(比原来好),因此到达停止条件的时候,收敛。

7.5 正交因子模型极大似然估计

是来自总体的样本,其中

有关正交因子模型的检验问题为:

其中是秩为矩阵,

的极大似然估计为,则有:

正交因子模型检验的似然比为:

7.6斜交旋转

维随机向量可以表示为:

其中,维常数向量,阶常数矩阵,为相关阵,相互独立。

称模型为斜交因子模型,称为公共因子,为特殊因子,为因子载荷矩阵。

Actually,存在满秩阵,使得。若令,则:

易知:

是正交因子模型,是公共因子,是正交因子载荷矩阵。

由于非正交矩阵,我们称公共因子为正交公共因子的斜交旋转。

7.7 因子得分

将因子表示成变量的线性组合(反代)

, 其中是公共因子, 是变量。

  • 因子得分函数:
  • 因子得分矩阵:

由因子得分函数知:

7.7.1 因子得分的计算—计算因子得分矩阵

假定变量已作标准化处理,即。 令也是的相关阵。记

假定因子载荷矩阵和相关阵已知。

对任意,有:

因此对,有:

Ch8 判别分析

不考的:

  • 贝叶斯估计、容许性
  • Fisher判别
  • SVM

8.1 马氏距离(Mahalanobis距离)

假设有两个正态总体,分布分别为. 判断样本y来自哪个总体。

是来自于均值为,协方差阵为的总体的两个样本,定义样本之间的马氏距离为:

定义与总体的距离与均值的距离,即:

8.1.1 总体具有相同协方差—线性

假定两个总体具有相同的协方差阵.

我们先考虑总体分别服从正态分布的距离判别方法,然后给出一般总体的判别方法。

思路:利用样本到总体的马氏距离进行判断。

样本到总体的距离差为:

记:

有:

判别准则为:

若记,则的线性函数。

则称是线性判别函数,称是判别系数。

总体参数未知

未知时,需要训练样本来估计总体的这些参数。

假设已知有总体个样本,和总体个样本。 令:

需要注意的是表示离差阵、而表示协方差阵。此时的判别函数为:

判别准则同上:

8.1.2 总体协方差不同—二次判别

假设有个总体,它们的均值和协差阵分别是

总体参数已知

令:

则判别规则为:

总体参数未知

使用样本均值和样本协方差阵来估计样本,需要注意的是表示离差阵、而表示协方差阵。记:

8.5 误判概率

说是比较简单.

两个正态总体:此时,距离判别、贝叶斯判别和Fisher判别等价。

考虑两个正态总体的情形. 分别为。判别函数为:

为样本来自而被误判为的概率,。则 :

其中为某个常数:距离判别,d=0.

Ch9 聚类分析

考点

  • K-means(普通/动态的一次迭代)

9.1 K-means

由于初始分类数k事先给定,且迭代过程中不断计算类的重心,故称该聚类方法为k均值法(k-means)

—- K-means
1. 初始分类 将几个个体初始分成k类,k事先给定.
2. 修改分类 计算初始k类的重心。然后对每个个体逐一计算它到初始k类的距离(通常用该个体到类的重心的欧氏距离)。若该个体到其原来的类的距离最近,则它保持类不变,否则它移入离其距离最近的类,重新计算由此变动的两个类的重心。
3. 重复迭代 在对所有个体都逐一进行验证,是否需要修改分类之后,重复步骤2),直到没有个体需要移动为止,从而得到最终分类.

9.2 动态K-means

事先给定3个数: 类别数k,阀值 , .

相较于K-means, 动态K-means在聚类过程中动态地调整聚类中心的数量 K。通常根据数据的分布和内部结构来自动确定合适的 K 值,避免了手动选择 K 值带来的不确定性。

—- 动态K-means
1. 选取聚点 取前k个个体作为初始聚点,计算这k个聚点两两之间的距离若最小的距离比小,则将最小距离的这两个聚点合并在一起,并用它们的重心作为新的聚点,重复上述过程,直到所有的聚点两两之间的距离都不比小时为止,因此,此时聚点的个数可能小于k.
2. 初始分类 对余下的n-k个个体逐一进行计算,对输入的一个个体,分别计算它到所有聚点的距离。若该个体到所有聚点的距离都大于,则它作为一个新的聚点,这时所有聚点两两之间的距离都不比小,否则将它归入离它最近的那一类,并重新计算接受该个体的那个类的重心以代替该类原来的聚点。然后重复步骤1),再次验证所有聚点两两之间的距离是否都不比小,如果比小就将其合并,直到所有聚点两两之间的距离都不比小时止,该步完成后,聚点的个数可能小于k,也可能大于k
3. 重复迭代 在对所有个体都逐一进行验证,是否需要修改分类之后,重复步骤2),直到没有个体需要移动为止,从而得到最终分类。这时,最终个体的类别数不一定是 k。
搜索
匹配结果数:
未搜索到匹配的文章。