多元统计分析-复习(下)
期末复习2
各分析考试占比较少。
[TOC]
Ch5 相关分析
不考的:
- 样本复相关系数分布(独立性检验,不考)
- 典型相关分析所有k步、作用
- 样本典型相关分析
- 典型相关变量个数检验
- 广义相关系数
5.1 复相关系数
5.1.1 总体复相关系数
知道基本定义即可。证明说是很简单,那么有可能考。
变量\(y_1\)与向量\(Y_2\)之间的复相关系数为: \[ \rho_{y_1,Y_2} = \sqrt{\frac{\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}}{\sigma_{11}}} \] 其中,\(\sigma_{11}=\text{Var}(y_1)\),\(\Sigma_{22}=\text{Cov}(Y_2)\),\(\Sigma_{12}=\text{Cov}(y_1,Y_2)\)。
定义的过程:设随机向量\(Y \sim N_p(\mu, \Sigma)\),其中\(\Sigma>0\)。
将\(Y\),\(\mu\)和\(\Sigma\)分别剖分为: \[ Y = \begin{pmatrix} y_1 \\ Y_2 \end{pmatrix}, \quad \mu = \begin{pmatrix} \mu_1 \\ \mu_2 \end{pmatrix}, \quad \Sigma = \begin{pmatrix} \sigma_{11} & \Sigma_{12} \\ \Sigma_{21} & \Sigma_{22} \end{pmatrix} \] 其中,\(y_1, \mu_1 \in\mathbb{R}^1\);\(\sigma_{11}>0\);\(Y_2, \mu_2, \Sigma_{21}=\Sigma_{12}' \in\mathbb{R}^{p - 1}\);\(\Sigma_{22}\)是\((p - 1)\)阶正定阵。
考虑\(y_1\)与\(a'Y_2\)之间的简单相关系数,其中\(a \in\mathbb{R}^{p - 1}\), \[ \begin{align} \rho_{y_1,a'Y_2} &= \frac{\text{Cov}(y_1,a'Y_2)}{\sqrt{\text{Var}(y_1)}\sqrt{\text{Var}(a'Y_2)}} = \frac{\text{Cov}(y_1,Y_2)a}{\sqrt{\sigma_{11}}\sqrt{a'\text{Var}(Y_2)a}}\\ &= \frac{\Sigma_{12}a}{\sqrt{\sigma_{11}}\sqrt{a'\Sigma_{22}a}} \end{align} \] 则定义\(y_1\)与\(Y_2\)的复相关系数为: \[ \rho_{y_1,Y_2} = \sup_{a \in R^{p - 1}} \rho_{y_1,a'Y_2} = \frac{1}{\sqrt{\sigma_{11}}} \sup_{a \in R^{p - 1}} \frac{\Sigma_{12}a}{\sqrt{a'\Sigma_{22}a}} \] 由\(\rho_{y_1,Y_2}\)的非负性、Cauchy - Schwarz不等式知 : \[ \rho_{y_1,Y_2} = \frac{1}{\sqrt{\sigma_{11}}} \sqrt{\sup_{a \in R^{p - 1}} \frac{(\Sigma_{12}a)^2}{a'\Sigma_{22}a}} = \sqrt{\frac{\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}}{\sigma_{11}}} \]
定理 1: 当\(a = \Sigma_{22}^{-1}\Sigma_{21}\)时,\(y_1-a'Y_2\)的方差取得最小值:\(\sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}=\text{Var}(y_1|Y_2)\),\(y_1\)与\(a'Y_2+a_0\)最接近,\(a+0=E(y_1)-a'E(Y_2)\)。
\(y_1\)与\(a'Y_2\)的相关系数最大,为复相关系数\(\rho_{y_1,Y_2}\),本质上刻画了\(y_1\)和\(Y_2\)的线性相关程度。
证明: 对任意\(b \in\mathbb{R}^{p - 1}\),有 : \[ \begin{align*} \text{Var}(y_1 - b'Y_2)&=\text{Var}[(y_1 - a'Y_2)+(a - b)'Y_2]\\ &=\text{Var}(y_1 - a'Y_2)+(a - b)'\text{Cov}(Y_2)(a - b)\\&+2\text{Cov}[(y_1 - a'Y_2),(a - b)'Y_2] \end{align*} \] 由于\(a = \Sigma_{22}^{-1}\Sigma_{21}\),则有: \[ \begin{align*} \text{Cov}[(y_1 - a'Y_2),Y_2]&=\text{Cov}(y_1,Y_2)-a'\text{Cov}(Y_2,Y_2)\\ &=\Sigma_{12}-a'\Sigma_{22}\\ &=0 \end{align*} \] 方差关系有: $$ \[\begin{align*} Var(y_1 - b'Y_2) &= Var(y_1 - a'Y_2)+(a - b)'Var(Y_2)(a - b)\\ &= Var(y_1 - a'Y_2)+(a - b)'\Sigma_{22}(a - b)\\ &\geq Var(y_1 - a'Y_2) \\\\ Var(y_1 - a'Y_2) &= Var(y_1)+Var(a'Y_2)-2Cov(y_1,a'Y_2)\\ &= \sigma_{11}+\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}-2\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}\\ &= \sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}\\ &= Var(y_1|Y_2) \end{align*}\] $$ 由定理1知:\(Var(y_1 - a'Y_2)\)达最小意味着\(y_1-\mu_1\)与\(a'Y_2 - a'\mu_2\)最接近,即\(y_1\)与\((\mu_1 - a'\mu_2)+a'Y_2\)最接近。
因此可以用\((p - 1)\)个预报因子\(Y_2\)的线性组合来预测单个因变量\(y_1\),其最优斜率为\(a\),最优截距为\((\mu_1 - a'\mu_2)\)。
注意到: \[ \begin{align*} E(y_1|Y_2) &= \mu_1+\Sigma_{12}\Sigma_{22}^{-1}(Y_2 - \mu_2)\\ &= \mu_1+a'(Y_2 - \mu_2)\\ &= (\mu_1 - a'\mu_2)+a'Y_2 \end{align*} \] 条件期望是最优(方差最小)的线性预测。
5.1.2 样本复相关系数
在总体复相关系数的基础上,用样本估计替换。
设总体\(X\stackrel{d}{\sim}N_{p}(\mu,\Sigma)\),其样本为\(x_1,\cdots,x_n\)。考虑\(X\)的剖分\(X=(x^{(1)},(X^{(2)})')'\)。
记\(\bar{x}\),\(V\)和\(S\)分别为样本均值、样本离差阵和样本协差阵,并对它们作相应剖分。
则由\(x^{(1)}\)与\(X^{(2)}\)的复相关系数: \[ \rho_{x^{(1)},X^{(2)}}=\sqrt{\frac{\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}}{\sigma_{11}}} \] 定义\(x^{(1)}\)与\(X^{(2)}\)的样本复相关系数为: \[ r_{x^{(1)},X^{(2)}}=\sqrt{\frac{V_{12}V_{22}^{-1}V_{21}}{v_{11}}} \] 以及\(a\)的估计为\(\hat{a}=V_{22}^{-1}V_{21}\)。不难知道,它们分别是复相关系数\(\rho_{x^{(1)},X^{(2)}}\)和方向\(a\)的极大似然估计。
5.2 典型相关分析定义
不太确定定义考不考,所以列上了。
设\(X=(X_1,\dots,X_p)',Y=(Y_1,\dots,Y_q)'\)分别为p维和q维随机向量:\(\begin{pmatrix}X\\Y\end{pmatrix}\sim N_{p+q}(\mu,\Sigma)\),其协方差矩阵为: \[ \text{Cov}\begin{pmatrix}X\\Y\end{pmatrix} =\Sigma=\begin{pmatrix}\Sigma_{11}&\Sigma_{12}\\\Sigma_{21}&\Sigma_{22}\end{pmatrix} \] 其中:\(\Sigma_{11}:p\times p,\Sigma_{22}:q\times q,\Sigma_{12}=\Sigma_{21}':p\times q\),\(\Sigma_{11},\Sigma_{22}\)正定。
设a和b分别为p维和q维任意非零的常数向量: \[ \rho(a'X,b'Y)=\frac{a'\Sigma_{12}b}{\sqrt{(a'\Sigma_{11}a)(b'\Sigma_{22}b)}} \] 由于相关系数\(\rho(a'X,b'Y)\)不受a和b常数倍的影响,为简单起见,对\(a'X,b'Y\)进行标准化,令: \[ Var(a'X)=a'\Sigma_{11}a=1,\quad Var(b'Y)=b'\Sigma_{22}b=1 \]
(书p485)定理13.1.1:\(a'X\)和\(b'Y\)的最大相关系数为: \[ \max_{a,b}\rho(a'X,b'Y)=\sqrt{\lambda_1} \] 在标准化的方差约束条件下,最大值在\(a\frac{1}{\sqrt{\lambda_1}\Sigma_{11}^{-1}\Sigma_{12}b},b=\Sigma_{22}^{-1}\beta\)时达到,其中\(\lambda_1,\beta\)分别为矩阵\(D=\Sigma_{22}^{-\frac 1 2}\Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12}\Sigma_{22}^{-\frac 1 2}\)的最大特征值和最大特征值对应的特征向量。
Ch6 PCA
不考的:
- R-PCA
- 样本-PCA
- PCA-统计推断
- PCA-检验问题
基本上考的方式: PCA=方差最大
给出计算好的\(\lambda\),指出第一、第二主成分。
对应的第一主成分是什么意思?对应的方差是多少?把特征根分解写出来。
顶多考一下基本概念。
记\(X\)是\(p\)维随机向量(\(p>1,Cov(X)=\Sigma\)),我们想基于\(X\),找到变量\(Y=a'X\)(\(a\in \mathbb{R}^p, X\)的线性组合),令\(Y\)的方差尽可能地大,足以代表\(X\)的散布。
\(a\in\mathbb{R}^{m\times p},X\in\mathbb{R}^{p\times1},Y\in\mathbb{R}^{m\times1}\)
因为\(Cov(X)=\Sigma, Var(a'X)=a'Cov(X)a=a'\Sigma a\),这表明若不对\(a\)施加约束,则\(a'X\)的最大方差\(\rightarrow \infty\)。
所以对\(a\)施加正则化约束:\(a'a=1\),使得优化问题为: \[ \sup_{a'a=1}Var(a'X)=\sup_{a'a=1} a'\Sigma a \] 令\(\Sigma\)的特征根为\(\lambda_{1}\geq\cdots\geq\lambda_{p}\geq0\),与这些特征根对应的正则正交特征向量为\(\alpha_{1},\cdots,\alpha_{p}\)。 易知: \[ \alpha_{1}=\alpha_{1}=(a_{11},\cdots,a_{1p})'\\ V_{ar}(a_{1}'X)=a_{1}'\Sigma a_{1}=\lambda_{1} \] 则第一主成份:
- 方向:总体协差阵的最大特征根所对应的正则特征向量。
- 方差:总体协差阵的最大特征根。
Ch7 因子分析
知道有这种模型,知道概念。
会写其协方差矩阵,
反推说简答的考, 推测考点
正交因子模型协方差结构检验、写似然比
斜交旋转(因为简单)
因子得分(只是反过来当回归估计)
不考的:
- 因子载荷矩阵的估计、极大似然估计
- 极大似然估计的迭代算法
- 公共因子>2
7.1 正交因子模型
令\(x\in\mathbb{R}^p\), \(x=\mu+Af+u\).
\(x\)具有因子结构(\(f\)与\(u\)相互独立):
\(\mu\) | \(A\) | \(f\) | \(u\) |
---|---|---|---|
\(p\)维常数向量 | \(p\times m\)阶常数矩阵 | \(f\sim N_{m}(0, I_{m}),\ m < p\) | \(u\sim N_{p}(0, D),\ D=\text{diag}(\sigma_{1}^{2},\cdots,\sigma_{p}^{2})\) |
因子载荷矩阵 | 公共因子 | 特殊因子 |
\[ \text{Cov}(x)=\Sigma = AA^{\prime}+D \]
注意:因子载荷矩阵并不唯一,因为对任意\(m\)阶正交矩阵\(T\),有: \[ \begin{align}x&=\mu + Af + u\\ &=\mu+(AT)(T^{\prime}f)+u\\ &=\mu+(AT)f^{*}+u\\\\ f^{*}&=T^{\prime}f\sim N_{m}(0, I_{m})\\ \text{Cov}(x)&=AA^{\prime}+D=(AT)(AT)^{\prime}+D \end{align} \]
7.2 因子载荷矩阵的表示
Q: 在给定\(x\)的相关阵\(R\)和对角阵\(D\)的条件下,如何求解\(A\)?
约相关阵:\(R^{*}=R - D=AA^{\prime}\)
易知,\(R^{*}\)的对角元素为\(h_{i}^{2}\),\(1\leq i\leq p\),其它元素与\(R\)一样,且非负定。
\[ R^*=AA'=\begin{pmatrix} a_{11}&a_{12}&\cdots&a_{1m}\\ a_{21}&a_{22}&\cdots&a_{2m}\\ \vdots&\vdots&\ddots&\vdots\\ a_{p1}&a_{p2}&\cdots&a_{pm}\\ \end{pmatrix}\begin{pmatrix} a_{11}&a_{21}&\cdots&a_{p1}\\ a_{12}&a_{22}&\cdots&a_{p2}\\ \vdots&\vdots&\ddots&\vdots\\ a_{1m}&a_{2m}&\cdots&a_{pm}\\ \end{pmatrix}\\ R^*_{ii}=A_{i*}·A_{i*}'=\sum^m_{j=1}a_{ij}^2=h_{i}^2\\ R^*_{ij}=A_{i*}·A_{j*}'=\sum^m_{k=1}a_{ik} a_{jk} \]
记\(R^*\)内的元素为\(r^*_{ij}=\sum^m_{k=1}a_{ik} a_{jk},\ 1\le j,k\le p\).
目标:求解\(A\)的各列,使得“贡献”\(g_{1}^{2}\geq\cdots\geq g_{m}^{2}\).
要求:使得\(g_{1}^{2}=\sum_{i = 1}^{p}a_{i1}^{2}\)达到最大值的解。
利用特征根和特征向量求解:
记\(\lambda_{1}\geq\cdots\geq\lambda_{p}\geq0\)为\(R^{*}\)的特征根,其对应的正则正交特征向量分别为\(\alpha_{1},\cdots,\alpha_{p}\)。 则 : \[ \begin{align}R^{*}&=U\Lambda U'=U\Lambda^{\frac 1 2} U'=AA' \\&=(\alpha_{1},\cdots,\alpha_{p})\text{diag}(\lambda_{1},\cdots,\lambda_{p})(\alpha_{1},\cdots,\alpha_{p})^{\prime}\\ &=(\alpha_{1},\cdots,\alpha_{p})\text{diag}(\sqrt{\lambda_{1}},\cdots,\sqrt{\lambda_{p}})\text{diag}(\sqrt{\lambda_{1}},\cdots,\sqrt{\lambda_{p}})(\alpha_{1},\cdots,\alpha_{p})^{\prime}\\\\ A &= (\alpha_{1},\cdots,\alpha_{m})\text{diag}(\sqrt{\lambda_{1}},\cdots,\sqrt{\lambda_{m}}) \end{align} \] 其中\(m\)是\(R^{*}\)的秩。
7.4 因子旋转-方差最大的正交旋转(Varimax旋转)
先考虑两个因子的正交旋转,设因子载荷矩阵和正交矩阵为:
\(B=AT,T=\begin{pmatrix}\cos(\varphi)&-\sin(\varphi)\\ \sin(\varphi)&cos(\varphi) \end{pmatrix}\), T是旋转矩阵。
令\(A=(a_1,a_2), B=(b_1,b_2)\) \[ \begin{cases} b_1=a_1\cos(\varphi)-a_2\sin(\varphi)\\ b_2=a_1\sin(\varphi)+a_2\cos(\varphi) \end{cases} \]
目标:旋转后,因子的“贡献”越分散越好。
结果:\(x\)可分为两部分,一部分主要与第一因子有关,另一部分主要与第二因子有关。
定义\(b_1\)和\(b_2\)的相对方差: \[ V_i(\varphi)=\frac 1 p\sum^p_{j=1}\left(\frac{b_{ji}^2}{h_j^2}\right)-\left(\frac 1 p\sum^p_{j=1}\frac{b_{ji}^2}{h_j^2}\right)^2 \] 其中\(h_j\)表示因子对\(x_j\)的影响;要求使得总方差最大,即求: \[ \hat\varphi=\arg\max_{\varphi}(V_1(\varphi)+V_2(\varphi)) \] 记:(\(1\leq j\leq p\))
\(\mu_{j}=\left(\frac{a_{j1}}{h_{j}}\right)^{2}-\left(\frac{a_{j2}}{h_{j}}\right)^{2}\) | \(v_{j}=2\left(\frac{a_{j1}}{h_{j}}\right)\left(\frac{a_{j2}}{h_{j}^{2}}\right)\) |
---|---|
\(A=\sum_{j = 1}^{p}\mu_{j}\) | \(B=\sum_{j = 1}^{p}v_{j}\) |
\(C=\sum_{j = 1}^{p}(\mu_{j}^{2}-v_{j}^{2})\) | \(D=\sum_{j = 1}^{p}2\mu_{j}v_{j}\) |
此法具有显式解: \[ \tan(4\hat\varphi)=\frac{D-2\frac{AB}{p}}{C-\frac{A^2-B^2}{p}} \] 进而得正交矩阵: \[ T=\begin{pmatrix}\cos(\hat\varphi)&-\sin(\hat\varphi)\\ \sin(\hat\varphi)&cos(\hat\varphi) \end{pmatrix} \]
取得的方差\(\hat\varphi\)是有界(其成分都是有界的)、故一定会收敛。
在旋转的同时,都会更接近收敛(比原来好),因此到达停止条件的时候,收敛。
7.5 正交因子模型极大似然估计
设\(x_1,\cdots,x_n\)是来自总体\(N_p(\mu,\Sigma)\)的样本,其中\(n > p\),\(\Sigma>0\)。
有关正交因子模型\((M)\)的检验问题为: \[ H_0:\Sigma = AA'+D \] 其中\(A\)是秩为\(m\)的\(p\times m\)矩阵,\(D=\text{diag}(\sigma_1^2,\cdots,\sigma_p^2)>0\)。
记\((A,D)\)的极大似然估计为\((\hat{A},\hat{D})\),则有: \[ L(\hat{A},\hat{D})=\vert\hat{A}\hat{A}'+\hat{D}\vert^{-n/2}\exp\left\{-\frac{n}{2}\text{tr}[(\hat{A}\hat{A}'+\hat{D})^{-1}S]\right\}\\ L(\hat A,\hat D)=\vert\hat A\hat A'+\hat D\vert^{-\frac n 2}\exp\{-\frac {np}2\} \] 正交因子模型检验的似然比\(\lambda\)为: \[ \begin{align} \lambda&=\frac{\sup_{\mu,\Sigma = AA'+D}\vert\Sigma\vert^{-n/2}\exp\left\{-\frac{n}{2}\text{tr}[\Sigma^{-1}(S + (\bar{x}-\mu)(\bar{x}-\mu)')]\right\}}{\sup_{\mu,\Sigma}\vert\Sigma\vert^{-n/2}\exp\left\{-\frac{n}{2}\text{tr}[\Sigma^{-1}(S + (\bar{x}-\mu)(\bar{x}-\mu)')]\right\}}\\ &=\left(\frac{\vert S\vert}{\vert\hat{A}\hat{A}'+\hat{D}\vert}\right)^{n/2} \end{align} \]
7.6斜交旋转
设\(p\)维随机向量\(\mathbf{x}\)可以表示为: \[ \mathbf{x}=\mu + A\mathbf{f}+\mathbf{u} \] 其中,\(\mu\)是\(p\)维常数向量,\(A\)是\(p\times m\)阶常数矩阵,\(\mathbf{f}\sim N_{m}(0, R)\),\(m < p\),\(R > 0\)为相关阵,\(\mathbf{u}\sim N_{p}(0, D)\),\(D=\text{diag}(\sigma_{1}^{2},\cdots,\sigma_{p}^{2})\),\(\mathbf{f}\)与\(\mathbf{u}\)相互独立。
称模型\(\mathbf{x}=\mu + A\mathbf{f}+\mathbf{u}\)为斜交因子模型,称\(\mathbf{f}\)为公共因子,\(\mathbf{u}\)为特殊因子,\(A\)为因子载荷矩阵。
Actually,存在满秩阵\(T\),使得\(R = TT^{\prime}\)。若令\(B = AT\),\(g=T^{-1}\mathbf{f}\),则: \[ \begin{align} {x}&=\mu + \mathbf A{f}+{u}\\ &=\mu+(\mathbf AT)(T^{-1}{f})+{u}\\ &=\mu+\mathbf Bg+u \end{align} \] 易知: \[ $\text{Cov}(\mathbf{g})=T^{-1}\text{Cov}(\mathbf{f})(T^{\prime})^{-1}=T^{-1}R(T^{\prime})^{-1}=I_{m} \] 则\(x=\mu+\mathbf Bg+u\)是正交因子模型,\({g}\)是公共因子,\(B\)是正交因子载荷矩阵。
由于\(T\)非正交矩阵,我们称公共因子\({f}=T{g}\)为正交公共因子\({g}\)的斜交旋转。
7.7 因子得分
将因子表示成变量的线性组合(反代)
\(f=Bx\), 其中\(B=(b_{ij})_{m\times p},f\in\mathbb{R}^{m}\)是公共因子, \(x\in\mathbb{R}^p\)是变量。
- 因子得分函数:\(f=Bx\)
- 因子得分矩阵:\(B\)
由因子得分函数知: \[ f_j=\sum_{i = 1}^{p}b_{ji}x_i, \quad 1\leq j\leq m \]
7.7.1 因子得分的计算--计算因子得分矩阵\(B\)
假定变量\(\mathbf{x}\)已作标准化处理,即\(E(x_i) = 0\),\(Var(x_i)=1\),\(1\leq i\leq p\)。 令\(R = Cov(\mathbf{x})\),\(R\)也是\(\mathbf{x}\)的相关阵。记\(R=(r_{ij})_{p\times p}\)。
假定因子载荷矩阵\(A\)和相关阵\(R\)已知。
对任意\(1\leq i\leq p\),\(1\leq j\leq m\),有: \[ \begin{align} a_{ij}&=E(x_if_j)\\&=\sum_{k = 1}^{p}b_{jk}E(x_ix_k)\\&=\sum_{k = 1}^{p}r_{ik}b_{jk} \end{align} \] 因此对\(1\leq j\leq m\),有: \[ \begin{pmatrix} r_{11}&r_{12}&\cdots&r_{1p}\\ r_{21}&r_{22}&\cdots&r_{2p}\\ \vdots&\vdots&\ddots&\vdots\\ r_{p1}&r_{p2}&\cdots&r_{pp} \end{pmatrix} \begin{pmatrix} b_{j1}\\ b_{j2}\\ \vdots\\ b_{jp} \end{pmatrix} = \begin{pmatrix} a_{1j}\\ a_{2j}\\ \vdots\\ a_{pj} \end{pmatrix} \]
Ch8 判别分析
不考的:
- 贝叶斯估计、容许性
- Fisher判别
- SVM
8.1 马氏距离(Mahalanobis距离)
假设有两个正态总体\(G_1,G_2\),分布分别为\(N_m(\mu_1,V),N_m(\mu_2,V)\). 判断样本y来自哪个总体。
设\(x\)和\(y\)是来自于均值为\(\mu\),协方差阵为\(\Sigma\)的总体\(G\)的两个样本,定义样本之间的马氏距离为: \[ d^2(x,y)=(x - y)'\Sigma^{-1}(x - y). \] 定义\(x\)与总体的距离为\(x\)与均值\(\mu\)的距离,即: \[ d^2(x,G)=(x - \mu)'\Sigma^{-1}(x - \mu). \]
8.1.1 总体具有相同协方差--线性
假定两个总体\(G_1,G_2\)具有相同的协方差阵\(V\).
我们先考虑总体\(G_1\)和\(G_2\)分别服从正态分布\(N_m(\mu_1, V)\)和\(N_m(\mu_2, V)\)的距离判别方法,然后给出一般总体的判别方法。
思路:利用样本到总体的马氏距离进行判断。 \[ d^2(y, G_1)=(y - \mu_1)'V^{-1}(y - \mu_1)\\ d^2(y, G_2)=(y - \mu_2)'V^{-1}(y - \mu_2) \]
样本到总体的距离差为: \[ d^2(y, G_1)-d^2(y, G_2)=-2\left(y - \frac{\mu_1 + \mu_2}{2}\right)'V^{-1}(\mu_1 - \mu_2) \] 记: \[ \bar{\mu}=\frac{\mu_1 + \mu_2}{2}\\ W(y)=(y - \bar{\mu})'V^{-1}(\mu_1 - \mu_2) \] 有: \[ d^2(y, G_1)-d^2(y, G_2)=-2W(y) \] 判别准则为: \[ \begin{cases}y \in G_1, & \text{若} W(y) \geq 0; \\ y \in G_2, & \text{若} W(y) < 0.\end{cases} \] 若记\(\alpha = V^{-1}(\mu_1 - \mu_2)\),则\(W(y)=\alpha'(y - \bar{\mu})\)是\(y\)的线性函数。
则称\(W(y)\)是线性判别函数,称\(\alpha\)是判别系数。
总体参数未知
当\(\mu_1\),\(\mu_2\)和\(V\)未知时,需要训练样本来估计总体的这些参数。
假设已知有总体\(G_1\)的\(n_1\)个样本\(y_1^{(1)}\),\(\cdots\),\(y_{n_1}^{(1)}\),和总体\(G_2\)的\(n_2\)个样本\(y_1^{(2)}\),\(\cdots\),\(y_{n_2}^{(2)}\)。 令: \[ \bar{y}^{(1)}=\frac{1}{n_1}\sum_{i = 1}^{n_1}y_i^{(1)},\quad \bar{y}^{(2)}=\frac{1}{n_2}\sum_{i = 1}^{n_2}y_i^{(2)}\\ \begin{align} \hat{V}&=\frac{1}{n_1 + n_2 - 2}\left[\sum_{i = 1}^{n_1}(y_i^{(1)}-\bar{y}^{(1)})(y_i^{(1)}-\bar{y}^{(1)})'+\sum_{i = 1}^{n_2}(y_i^{(2)}-\bar{y}^{(2)})(y_i^{(2)}-\bar{y}^{(2)})'\right]\\ &\overset{\Delta}=\frac{1}{n_1 + n_2 - 2}[S_1 + S_2] \end{align} \] 需要注意的是\(S\)表示离差阵、而\(V\)表示协方差阵。此时的判别函数为: \[ W(y)=\left( y - \frac{\bar{y}^{(1)} + \bar{y}^{(2)}}{2} \right)'\hat{V}^{-1} (\bar{y}^{(1)} - \bar{y}^{(2)}) \] 判别准则同上: \[ \begin{cases} y\in G_1, 若W(y)\ge0\\ y \in G_2,若W(y)< 0 \end{cases} \]
8.1.2 总体协方差不同--二次判别
假设有\(k\)个总体\(G_1,\cdots,G_k\),它们的均值和协差阵分别是\((\mu_1,V_1),\cdots,(\mu_k,V_k)\)。
总体参数已知
令: \[ D_i=\left\{y\in R^m:d^2(y,G_i)\leq\min_{1\leq j\leq k,j\neq i}d^2(y,G_j)\right\},\ 1\leq i\leq k \] 则判别规则为: \[ y属于总体G_i\ \text{if}y\in D_i,\ 1\leq i\leq k \]
总体参数未知
使用样本均值和样本协方差阵来估计样本,需要注意的是\(S\)表示离差阵、而\(V\)表示协方差阵。记: \[ \bar{y}^{(i)}=\frac{1}{n_i}\sum_{j = 1}^{n_i}y_j^{(i)},\ 1\leq i\leq k\\ \hat{V}_i=\frac{S_i}{n_i - 1},\ 1\leq i\leq k \]
8.5 误判概率
说是比较简单.
两个正态总体:此时,距离判别、贝叶斯判别和Fisher判别等价。
考虑两个正态总体的情形. \(G_1,G_2\)分别为\(N_m(\mu_1,V)\)和\(N_m(\mu_2,V)\)。判别函数为: \[ W(y)=(y - \frac{\mu_1+\mu_2}{2})'V^{-1}(\mu_1 - \mu_2) \] 记\(P(i|j)\)为样本来自\(G_j\)而被误判为\(G_i\)的概率,\(i\neq j\)。则 : \[ P(2|1)=P\{W(y)\leq d|G_1\}\\ P(1|2)=P\{W(y)>d|G_2\} \] 其中\(d\)为某个常数:距离判别,d=0.
Ch9 聚类分析
考点:
- K-means(普通/动态的一次迭代)
9.1 K-means
由于初始分类数k事先给定,且迭代过程中不断计算类的重心,故称该聚类方法为k均值法(k-means):
--- | K-means |
---|---|
1. 初始分类 | 将几个个体初始分成k类,k事先给定. |
2. 修改分类 | 计算初始k类的重心。然后对每个个体逐一计算它到初始k类的距离(通常用该个体到类的重心的欧氏距离)。若该个体到其原来的类的距离最近,则它保持类不变,否则它移入离其距离最近的类,重新计算由此变动的两个类的重心。 |
3. 重复迭代 | 在对所有个体都逐一进行验证,是否需要修改分类之后,重复步骤2),直到没有个体需要移动为止,从而得到最终分类. |
9.2 动态K-means
事先给定3个数: 类别数k,阀值 \(c_1\)和 \(c_2\), \(c_2>c_1> 0\).
相较于K-means, 动态K-means在聚类过程中动态地调整聚类中心的数量 K。通常根据数据的分布和内部结构来自动确定合适的 K 值,避免了手动选择 K 值带来的不确定性。
--- | 动态K-means |
---|---|
1. 选取聚点 | 取前k个个体作为初始聚点,计算这k个聚点两两之间的距离若最小的距离比\(c_1\)小,则将最小距离的这两个聚点合并在一起,并用它们的重心作为新的聚点,重复上述过程,直到所有的聚点两两之间的距离都不比\(c_1\)小时为止,因此,此时聚点的个数可能小于k. |
2. 初始分类 | 对余下的n-k个个体逐一进行计算,对输入的一个个体,分别计算它到所有聚点的距离。若该个体到所有聚点的距离都大于\(c_2\),则它作为一个新的聚点,这时所有聚点两两之间的距离都不比\(c_1\)小,否则将它归入离它最近的那一类,并重新计算接受该个体的那个类的重心以代替该类原来的聚点。然后重复步骤1),再次验证所有聚点两两之间的距离是否都不比\(c_1\)小,如果比\(c_1\)小就将其合并,直到所有聚点两两之间的距离都不比\(c_1\)小时止,该步完成后,聚点的个数可能小于k,也可能大于k。 |
3. 重复迭代 | 在对所有个体都逐一进行验证,是否需要修改分类之后,重复步骤2),直到没有个体需要移动为止,从而得到最终分类。这时,最终个体的类别数不一定是 k。 |