多元统计分析-复习(下)
期末复习2
各分析考试占比较少。
[TOC]
Ch5 相关分析
不考的:
- 样本复相关系数分布(独立性检验,不考)
- 典型相关分析所有k步、作用
- 样本典型相关分析
- 典型相关变量个数检验
- 广义相关系数
5.1 复相关系数
5.1.1 总体复相关系数
知道基本定义即可。证明说是很简单,那么有可能考。
变量
其中,
定义的过程:设随机向量
,其中 。 将
, 和 分别剖分为: 其中,
; ; ; 是 阶正定阵。 考虑
与 之间的简单相关系数,其中 , 则定义
与 的复相关系数为: 由
的非负性、Cauchy - Schwarz不等式知 :
定理 1: 当
证明: 对任意
,有 : 由于
,则有: 方差关系有:
由定理1知:
达最小意味着 与 最接近,即 与 最接近。 因此可以用
个预报因子 的线性组合来预测单个因变量 ,其最优斜率为 ,最优截距为 。 注意到:
条件期望是最优(方差最小)的线性预测。
5.1.2 样本复相关系数
在总体复相关系数的基础上,用样本估计替换。
设总体
记
则由
定义
以及
5.2 典型相关分析定义
不太确定定义考不考,所以列上了。
设
其中:
设a和b分别为p维和q维任意非零的常数向量:
由于相关系数
(书p485)定理13.1.1:
在标准化的方差约束条件下,最大值在
Ch6 PCA
不考的:
- R-PCA
- 样本-PCA
- PCA-统计推断
- PCA-检验问题
基本上考的方式: PCA=方差最大
给出计算好的
,指出第一、第二主成分。 对应的第一主成分是什么意思?对应的方差是多少?把特征根分解写出来。
顶多考一下基本概念。
记
因为
所以对
令
则第一主成份:
- 方向:总体协差阵的最大特征根所对应的正则特征向量。
- 方差:总体协差阵的最大特征根。
Ch7 因子分析
知道有这种模型,知道概念。
会写其协方差矩阵,
反推说简答的考, 推测考点
- 正交因子模型协方差结构检验、写似然比
斜交旋转(因为简单)
因子得分(只是反过来当回归估计)
不考的:
- 因子载荷矩阵的估计、极大似然估计
- 极大似然估计的迭代算法
- 公共因子>2
7.1 正交因子模型
令
因子载荷矩阵 | 公共因子 | 特殊因子 |
注意:因子载荷矩阵并不唯一,因为对任意
阶正交矩阵 ,有:
7.2 因子载荷矩阵的表示
Q: 在给定
的相关阵 和对角阵 的条件下,如何求解 ?
约相关阵:
易知,
记$R^
目标:求解
要求:使得
利用特征根和特征向量求解:
记
其中
7.4 因子旋转-方差最大的正交旋转(Varimax旋转)
先考虑两个因子的正交旋转,设因子载荷矩阵和正交矩阵为:
令
目标:旋转后,因子的“贡献”越分散越好。
结果:
可分为两部分,一部分主要与第一因子有关,另一部分主要与第二因子有关。
定义
其中
记:(
此法具有显式解:
进而得正交矩阵:
取得的方差
在旋转的同时,都会更接近收敛(比原来好),因此到达停止条件的时候,收敛。
7.5 正交因子模型极大似然估计
设
有关正交因子模型
其中
记
正交因子模型检验的似然比
7.6斜交旋转
设
其中,
称模型
Actually,存在满秩阵
易知:
则
由于
7.7 因子得分
将因子表示成变量的线性组合(反代)
- 因子得分函数:
- 因子得分矩阵:
由因子得分函数知:
7.7.1 因子得分的计算—计算因子得分矩阵
假定变量
假定因子载荷矩阵
对任意
因此对
Ch8 判别分析
不考的:
- 贝叶斯估计、容许性
- Fisher判别
- SVM
8.1 马氏距离(Mahalanobis距离)
假设有两个正态总体
设
定义
8.1.1 总体具有相同协方差—线性
假定两个总体
我们先考虑总体
思路:利用样本到总体的马氏距离进行判断。
样本到总体的距离差为:
记:
有:
判别准则为:
若记
则称
总体参数未知
当
假设已知有总体
需要注意的是
判别准则同上:
8.1.2 总体协方差不同—二次判别
假设有
总体参数已知
令:
则判别规则为:
总体参数未知
使用样本均值和样本协方差阵来估计样本,需要注意的是
8.5 误判概率
说是比较简单.
两个正态总体:此时,距离判别、贝叶斯判别和Fisher判别等价。
考虑两个正态总体的情形.
记
其中
Ch9 聚类分析
考点:
- K-means(普通/动态的一次迭代)
9.1 K-means
由于初始分类数k事先给定,且迭代过程中不断计算类的重心,故称该聚类方法为k均值法(k-means):
—- | K-means |
---|---|
1. 初始分类 | 将几个个体初始分成k类,k事先给定. |
2. 修改分类 | 计算初始k类的重心。然后对每个个体逐一计算它到初始k类的距离(通常用该个体到类的重心的欧氏距离)。若该个体到其原来的类的距离最近,则它保持类不变,否则它移入离其距离最近的类,重新计算由此变动的两个类的重心。 |
3. 重复迭代 | 在对所有个体都逐一进行验证,是否需要修改分类之后,重复步骤2),直到没有个体需要移动为止,从而得到最终分类. |
9.2 动态K-means
事先给定3个数: 类别数k,阀值
相较于K-means, 动态K-means在聚类过程中动态地调整聚类中心的数量 K。通常根据数据的分布和内部结构来自动确定合适的 K 值,避免了手动选择 K 值带来的不确定性。
—- | 动态K-means |
---|---|
1. 选取聚点 | 取前k个个体作为初始聚点,计算这k个聚点两两之间的距离若最小的距离比 |
2. 初始分类 | 对余下的n-k个个体逐一进行计算,对输入的一个个体,分别计算它到所有聚点的距离。若该个体到所有聚点的距离都大于 |
3. 重复迭代 | 在对所有个体都逐一进行验证,是否需要修改分类之后,重复步骤2),直到没有个体需要移动为止,从而得到最终分类。这时,最终个体的类别数不一定是 k。 |