Schwertlilien
As a recoder: notes and ideas.

多元统计分析-复习(下)

期末复习2

各分析考试占比较少。

[TOC]

Ch5 相关分析

不考的:

  • 样本复相关系数分布(独立性检验,不考)
  • 典型相关分析所有k步、作用
  • 样本典型相关分析
  • 典型相关变量个数检验
  • 广义相关系数

5.1 复相关系数

5.1.1 总体复相关系数

知道基本定义即可。证明说是很简单,那么有可能考。

变量\(y_1\)与向量\(Y_2\)之间的复相关系数为: \[ \rho_{y_1,Y_2} = \sqrt{\frac{\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}}{\sigma_{11}}} \] 其中,\(\sigma_{11}=\text{Var}(y_1)\)\(\Sigma_{22}=\text{Cov}(Y_2)\)\(\Sigma_{12}=\text{Cov}(y_1,Y_2)\)

定义的过程:设随机向量\(Y \sim N_p(\mu, \Sigma)\),其中\(\Sigma>0\)

\(Y\)\(\mu\)\(\Sigma\)分别剖分为: \[ Y = \begin{pmatrix} y_1 \\ Y_2 \end{pmatrix}, \quad \mu = \begin{pmatrix} \mu_1 \\ \mu_2 \end{pmatrix}, \quad \Sigma = \begin{pmatrix} \sigma_{11} & \Sigma_{12} \\ \Sigma_{21} & \Sigma_{22} \end{pmatrix} \] 其中,\(y_1, \mu_1 \in\mathbb{R}^1\)\(\sigma_{11}>0\)\(Y_2, \mu_2, \Sigma_{21}=\Sigma_{12}' \in\mathbb{R}^{p - 1}\)\(\Sigma_{22}\)\((p - 1)\)阶正定阵。

考虑\(y_1\)\(a'Y_2\)之间的简单相关系数,其中\(a \in\mathbb{R}^{p - 1}\)\[ \begin{align} \rho_{y_1,a'Y_2} &= \frac{\text{Cov}(y_1,a'Y_2)}{\sqrt{\text{Var}(y_1)}\sqrt{\text{Var}(a'Y_2)}} = \frac{\text{Cov}(y_1,Y_2)a}{\sqrt{\sigma_{11}}\sqrt{a'\text{Var}(Y_2)a}}\\ &= \frac{\Sigma_{12}a}{\sqrt{\sigma_{11}}\sqrt{a'\Sigma_{22}a}} \end{align} \] 则定义\(y_1\)\(Y_2\)的复相关系数为: \[ \rho_{y_1,Y_2} = \sup_{a \in R^{p - 1}} \rho_{y_1,a'Y_2} = \frac{1}{\sqrt{\sigma_{11}}} \sup_{a \in R^{p - 1}} \frac{\Sigma_{12}a}{\sqrt{a'\Sigma_{22}a}} \]\(\rho_{y_1,Y_2}\)的非负性、Cauchy - Schwarz不等式知 : \[ \rho_{y_1,Y_2} = \frac{1}{\sqrt{\sigma_{11}}} \sqrt{\sup_{a \in R^{p - 1}} \frac{(\Sigma_{12}a)^2}{a'\Sigma_{22}a}} = \sqrt{\frac{\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}}{\sigma_{11}}} \]

定理 1: 当\(a = \Sigma_{22}^{-1}\Sigma_{21}\)时,\(y_1-a'Y_2\)的方差取得最小值:\(\sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}=\text{Var}(y_1|Y_2)\)\(y_1\)\(a'Y_2+a_0\)最接近,\(a+0=E(y_1)-a'E(Y_2)\)

\(y_1\)\(a'Y_2\)的相关系数最大,为复相关系数\(\rho_{y_1,Y_2}\),本质上刻画了\(y_1\)\(Y_2\)的线性相关程度。

证明: 对任意\(b \in\mathbb{R}^{p - 1}\),有 : \[ \begin{align*} \text{Var}(y_1 - b'Y_2)&=\text{Var}[(y_1 - a'Y_2)+(a - b)'Y_2]\\ &=\text{Var}(y_1 - a'Y_2)+(a - b)'\text{Cov}(Y_2)(a - b)\\&+2\text{Cov}[(y_1 - a'Y_2),(a - b)'Y_2] \end{align*} \] 由于\(a = \Sigma_{22}^{-1}\Sigma_{21}\),则有: \[ \begin{align*} \text{Cov}[(y_1 - a'Y_2),Y_2]&=\text{Cov}(y_1,Y_2)-a'\text{Cov}(Y_2,Y_2)\\ &=\Sigma_{12}-a'\Sigma_{22}\\ &=0 \end{align*} \] 方差关系有: $$ \[\begin{align*} Var(y_1 - b'Y_2) &= Var(y_1 - a'Y_2)+(a - b)'Var(Y_2)(a - b)\\ &= Var(y_1 - a'Y_2)+(a - b)'\Sigma_{22}(a - b)\\ &\geq Var(y_1 - a'Y_2) \\\\ Var(y_1 - a'Y_2) &= Var(y_1)+Var(a'Y_2)-2Cov(y_1,a'Y_2)\\ &= \sigma_{11}+\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}-2\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}\\ &= \sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}\\ &= Var(y_1|Y_2) \end{align*}\] $$ 由定理1知:\(Var(y_1 - a'Y_2)\)达最小意味着\(y_1-\mu_1\)\(a'Y_2 - a'\mu_2\)最接近,即\(y_1\)\((\mu_1 - a'\mu_2)+a'Y_2\)最接近。

因此可以用\((p - 1)\)个预报因子\(Y_2\)的线性组合来预测单个因变量\(y_1\),其最优斜率为\(a\),最优截距为\((\mu_1 - a'\mu_2)\)

注意到: \[ \begin{align*} E(y_1|Y_2) &= \mu_1+\Sigma_{12}\Sigma_{22}^{-1}(Y_2 - \mu_2)\\ &= \mu_1+a'(Y_2 - \mu_2)\\ &= (\mu_1 - a'\mu_2)+a'Y_2 \end{align*} \] 条件期望是最优(方差最小)的线性预测。

5.1.2 样本复相关系数

在总体复相关系数的基础上,用样本估计替换。

设总体\(X\stackrel{d}{\sim}N_{p}(\mu,\Sigma)\),其样本为\(x_1,\cdots,x_n\)。考虑\(X\)的剖分\(X=(x^{(1)},(X^{(2)})')'\)

\(\bar{x}\)\(V\)\(S\)分别为样本均值、样本离差阵和样本协差阵,并对它们作相应剖分。

则由\(x^{(1)}\)\(X^{(2)}\)的复相关系数: \[ \rho_{x^{(1)},X^{(2)}}=\sqrt{\frac{\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}}{\sigma_{11}}} \] 定义\(x^{(1)}\)\(X^{(2)}\)的样本复相关系数为: \[ r_{x^{(1)},X^{(2)}}=\sqrt{\frac{V_{12}V_{22}^{-1}V_{21}}{v_{11}}} \] 以及\(a\)的估计为\(\hat{a}=V_{22}^{-1}V_{21}\)。不难知道,它们分别是复相关系数\(\rho_{x^{(1)},X^{(2)}}\)和方向\(a\)的极大似然估计。

5.2 典型相关分析定义

不太确定定义考不考,所以列上了。

\(X=(X_1,\dots,X_p)',Y=(Y_1,\dots,Y_q)'\)分别为p维和q维随机向量:\(\begin{pmatrix}X\\Y\end{pmatrix}\sim N_{p+q}(\mu,\Sigma)\),其协方差矩阵为: \[ \text{Cov}\begin{pmatrix}X\\Y\end{pmatrix} =\Sigma=\begin{pmatrix}\Sigma_{11}&\Sigma_{12}\\\Sigma_{21}&\Sigma_{22}\end{pmatrix} \] 其中:\(\Sigma_{11}:p\times p,\Sigma_{22}:q\times q,\Sigma_{12}=\Sigma_{21}':p\times q\)\(\Sigma_{11},\Sigma_{22}\)正定。

设a和b分别为p维和q维任意非零的常数向量: \[ \rho(a'X,b'Y)=\frac{a'\Sigma_{12}b}{\sqrt{(a'\Sigma_{11}a)(b'\Sigma_{22}b)}} \] 由于相关系数\(\rho(a'X,b'Y)\)不受a和b常数倍的影响,为简单起见,对\(a'X,b'Y\)进行标准化,令: \[ Var(a'X)=a'\Sigma_{11}a=1,\quad Var(b'Y)=b'\Sigma_{22}b=1 \]

(书p485)定理13.1.1\(a'X\)\(b'Y\)的最大相关系数为: \[ \max_{a,b}\rho(a'X,b'Y)=\sqrt{\lambda_1} \] 在标准化的方差约束条件下,最大值在\(a\frac{1}{\sqrt{\lambda_1}\Sigma_{11}^{-1}\Sigma_{12}b},b=\Sigma_{22}^{-1}\beta\)时达到,其中\(\lambda_1,\beta\)分别为矩阵\(D=\Sigma_{22}^{-\frac 1 2}\Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12}\Sigma_{22}^{-\frac 1 2}\)的最大特征值和最大特征值对应的特征向量。

Ch6 PCA

不考的:

  • R-PCA
  • 样本-PCA
  • PCA-统计推断
  • PCA-检验问题

基本上考的方式: PCA=方差最大

  • 给出计算好的\(\lambda\),指出第一、第二主成分。

  • 对应的第一主成分是什么意思?对应的方差是多少?把特征根分解写出来。

  • 顶多考一下基本概念。

\(X\)\(p\)维随机向量(\(p>1,Cov(X)=\Sigma\)),我们想基于\(X\),找到变量\(Y=a'X\)(\(a\in \mathbb{R}^p, X\)的线性组合),令\(Y\)的方差尽可能地大,足以代表\(X\)的散布。

\(a\in\mathbb{R}^{m\times p},X\in\mathbb{R}^{p\times1},Y\in\mathbb{R}^{m\times1}\)

因为\(Cov(X)=\Sigma, Var(a'X)=a'Cov(X)a=a'\Sigma a\),这表明若不对\(a\)施加约束,则\(a'X\)的最大方差\(\rightarrow \infty\)

所以对\(a\)施加正则化约束:\(a'a=1\),使得优化问题为: \[ \sup_{a'a=1}Var(a'X)=\sup_{a'a=1} a'\Sigma a \]\(\Sigma\)的特征根为\(\lambda_{1}\geq\cdots\geq\lambda_{p}\geq0\),与这些特征根对应的正则正交特征向量为\(\alpha_{1},\cdots,\alpha_{p}\)。 易知: \[ \alpha_{1}=\alpha_{1}=(a_{11},\cdots,a_{1p})'\\ V_{ar}(a_{1}'X)=a_{1}'\Sigma a_{1}=\lambda_{1} \] 则第一主成份:

  • 方向:总体协差阵的最大特征根所对应的正则特征向量。
  • 方差:总体协差阵的最大特征根。

Ch7 因子分析

知道有这种模型,知道概念。

会写其协方差矩阵,

反推说简答的考, 推测考点

  • 正交因子模型协方差结构检验、写似然比

  • 斜交旋转(因为简单)

  • 因子得分(只是反过来当回归估计)

不考的

  • 因子载荷矩阵的估计、极大似然估计
  • 极大似然估计的迭代算法
  • 公共因子>2

7.1 正交因子模型

\(x\in\mathbb{R}^p\), \(x=\mu+Af+u\).

\(x\)具有因子结构(\(f\)\(u\)相互独立):

\(\mu\) \(A\) \(f\) \(u\)
\(p\)维常数向量 \(p\times m\)阶常数矩阵 \(f\sim N_{m}(0, I_{m}),\ m < p\) \(u\sim N_{p}(0, D),\ D=\text{diag}(\sigma_{1}^{2},\cdots,\sigma_{p}^{2})\)
因子载荷矩阵 公共因子 特殊因子

\[ \text{Cov}(x)=\Sigma = AA^{\prime}+D \]

注意:因子载荷矩阵并不唯一,因为对任意\(m\)阶正交矩阵\(T\),有: \[ \begin{align}x&=\mu + Af + u\\ &=\mu+(AT)(T^{\prime}f)+u\\ &=\mu+(AT)f^{*}+u\\\\ f^{*}&=T^{\prime}f\sim N_{m}(0, I_{m})\\ \text{Cov}(x)&=AA^{\prime}+D=(AT)(AT)^{\prime}+D \end{align} \]

7.2 因子载荷矩阵的表示

Q: 在给定\(x\)的相关阵\(R\)和对角阵\(D\)的条件下,如何求解\(A\)

约相关阵:\(R^{*}=R - D=AA^{\prime}\)

易知,\(R^{*}\)的对角元素为\(h_{i}^{2}\)\(1\leq i\leq p\),其它元素与\(R\)一样,且非负定。

\[ R^*=AA'=\begin{pmatrix} a_{11}&a_{12}&\cdots&a_{1m}\\ a_{21}&a_{22}&\cdots&a_{2m}\\ \vdots&\vdots&\ddots&\vdots\\ a_{p1}&a_{p2}&\cdots&a_{pm}\\ \end{pmatrix}\begin{pmatrix} a_{11}&a_{21}&\cdots&a_{p1}\\ a_{12}&a_{22}&\cdots&a_{p2}\\ \vdots&\vdots&\ddots&\vdots\\ a_{1m}&a_{2m}&\cdots&a_{pm}\\ \end{pmatrix}\\ R^*_{ii}=A_{i*}·A_{i*}'=\sum^m_{j=1}a_{ij}^2=h_{i}^2\\ R^*_{ij}=A_{i*}·A_{j*}'=\sum^m_{k=1}a_{ik} a_{jk} \]

\(R^*\)内的元素为\(r^*_{ij}=\sum^m_{k=1}a_{ik} a_{jk},\ 1\le j,k\le p\).

目标:求解\(A\)的各列,使得“贡献”\(g_{1}^{2}\geq\cdots\geq g_{m}^{2}\).

要求:使得\(g_{1}^{2}=\sum_{i = 1}^{p}a_{i1}^{2}\)达到最大值的解。

利用特征根和特征向量求解:

\(\lambda_{1}\geq\cdots\geq\lambda_{p}\geq0\)\(R^{*}\)的特征根,其对应的正则正交特征向量分别为\(\alpha_{1},\cdots,\alpha_{p}\)。 则 : \[ \begin{align}R^{*}&=U\Lambda U'=U\Lambda^{\frac 1 2} U'=AA' \\&=(\alpha_{1},\cdots,\alpha_{p})\text{diag}(\lambda_{1},\cdots,\lambda_{p})(\alpha_{1},\cdots,\alpha_{p})^{\prime}\\ &=(\alpha_{1},\cdots,\alpha_{p})\text{diag}(\sqrt{\lambda_{1}},\cdots,\sqrt{\lambda_{p}})\text{diag}(\sqrt{\lambda_{1}},\cdots,\sqrt{\lambda_{p}})(\alpha_{1},\cdots,\alpha_{p})^{\prime}\\\\ A &= (\alpha_{1},\cdots,\alpha_{m})\text{diag}(\sqrt{\lambda_{1}},\cdots,\sqrt{\lambda_{m}}) \end{align} \] 其中\(m\)\(R^{*}\)的秩。

7.4 因子旋转-方差最大的正交旋转(Varimax旋转)

先考虑两个因子的正交旋转,设因子载荷矩阵和正交矩阵为:

\(B=AT,T=\begin{pmatrix}\cos(\varphi)&-\sin(\varphi)\\ \sin(\varphi)&cos(\varphi) \end{pmatrix}\), T是旋转矩阵。

\(A=(a_1,a_2), B=(b_1,b_2)\) \[ \begin{cases} b_1=a_1\cos(\varphi)-a_2\sin(\varphi)\\ b_2=a_1\sin(\varphi)+a_2\cos(\varphi) \end{cases} \]

目标:旋转后,因子的“贡献”越分散越好。

结果:\(x\)可分为两部分,一部分主要与第一因子有关,另一部分主要与第二因子有关。

定义\(b_1\)\(b_2\)的相对方差: \[ V_i(\varphi)=\frac 1 p\sum^p_{j=1}\left(\frac{b_{ji}^2}{h_j^2}\right)-\left(\frac 1 p\sum^p_{j=1}\frac{b_{ji}^2}{h_j^2}\right)^2 \] 其中\(h_j\)表示因子对\(x_j\)的影响;要求使得总方差最大,即求: \[ \hat\varphi=\arg\max_{\varphi}(V_1(\varphi)+V_2(\varphi)) \] 记:(\(1\leq j\leq p\))

\(\mu_{j}=\left(\frac{a_{j1}}{h_{j}}\right)^{2}-\left(\frac{a_{j2}}{h_{j}}\right)^{2}\) \(v_{j}=2\left(\frac{a_{j1}}{h_{j}}\right)\left(\frac{a_{j2}}{h_{j}^{2}}\right)\)
\(A=\sum_{j = 1}^{p}\mu_{j}\) \(B=\sum_{j = 1}^{p}v_{j}\)
\(C=\sum_{j = 1}^{p}(\mu_{j}^{2}-v_{j}^{2})\) \(D=\sum_{j = 1}^{p}2\mu_{j}v_{j}\)

此法具有显式解: \[ \tan(4\hat\varphi)=\frac{D-2\frac{AB}{p}}{C-\frac{A^2-B^2}{p}} \] 进而得正交矩阵: \[ T=\begin{pmatrix}\cos(\hat\varphi)&-\sin(\hat\varphi)\\ \sin(\hat\varphi)&cos(\hat\varphi) \end{pmatrix} \]

取得的方差\(\hat\varphi\)是有界(其成分都是有界的)、故一定会收敛。

在旋转的同时,都会更接近收敛(比原来好),因此到达停止条件的时候,收敛。

7.5 正交因子模型极大似然估计

\(x_1,\cdots,x_n\)是来自总体\(N_p(\mu,\Sigma)\)的样本,其中\(n > p\)\(\Sigma>0\)

有关正交因子模型\((M)\)的检验问题为: \[ H_0:\Sigma = AA'+D \] 其中\(A\)是秩为\(m\)\(p\times m\)矩阵,\(D=\text{diag}(\sigma_1^2,\cdots,\sigma_p^2)>0\)

\((A,D)\)的极大似然估计为\((\hat{A},\hat{D})\),则有: \[ L(\hat{A},\hat{D})=\vert\hat{A}\hat{A}'+\hat{D}\vert^{-n/2}\exp\left\{-\frac{n}{2}\text{tr}[(\hat{A}\hat{A}'+\hat{D})^{-1}S]\right\}\\ L(\hat A,\hat D)=\vert\hat A\hat A'+\hat D\vert^{-\frac n 2}\exp\{-\frac {np}2\} \] 正交因子模型检验的似然比\(\lambda\)为: \[ \begin{align} \lambda&=\frac{\sup_{\mu,\Sigma = AA'+D}\vert\Sigma\vert^{-n/2}\exp\left\{-\frac{n}{2}\text{tr}[\Sigma^{-1}(S + (\bar{x}-\mu)(\bar{x}-\mu)')]\right\}}{\sup_{\mu,\Sigma}\vert\Sigma\vert^{-n/2}\exp\left\{-\frac{n}{2}\text{tr}[\Sigma^{-1}(S + (\bar{x}-\mu)(\bar{x}-\mu)')]\right\}}\\ &=\left(\frac{\vert S\vert}{\vert\hat{A}\hat{A}'+\hat{D}\vert}\right)^{n/2} \end{align} \]

7.6斜交旋转

\(p\)维随机向量\(\mathbf{x}\)可以表示为: \[ \mathbf{x}=\mu + A\mathbf{f}+\mathbf{u} \] 其中,\(\mu\)\(p\)维常数向量,\(A\)\(p\times m\)阶常数矩阵,\(\mathbf{f}\sim N_{m}(0, R)\)\(m < p\)\(R > 0\)为相关阵,\(\mathbf{u}\sim N_{p}(0, D)\)\(D=\text{diag}(\sigma_{1}^{2},\cdots,\sigma_{p}^{2})\)\(\mathbf{f}\)\(\mathbf{u}\)相互独立。

称模型\(\mathbf{x}=\mu + A\mathbf{f}+\mathbf{u}\)为斜交因子模型,称\(\mathbf{f}\)为公共因子,\(\mathbf{u}\)为特殊因子,\(A\)为因子载荷矩阵。

Actually,存在满秩阵\(T\),使得\(R = TT^{\prime}\)。若令\(B = AT\)\(g=T^{-1}\mathbf{f}\),则: \[ \begin{align} {x}&=\mu + \mathbf A{f}+{u}\\ &=\mu+(\mathbf AT)(T^{-1}{f})+{u}\\ &=\mu+\mathbf Bg+u \end{align} \] 易知: \[ $\text{Cov}(\mathbf{g})=T^{-1}\text{Cov}(\mathbf{f})(T^{\prime})^{-1}=T^{-1}R(T^{\prime})^{-1}=I_{m} \]\(x=\mu+\mathbf Bg+u\)是正交因子模型,\({g}\)是公共因子,\(B\)是正交因子载荷矩阵。

由于\(T\)非正交矩阵,我们称公共因子\({f}=T{g}\)为正交公共因子\({g}\)的斜交旋转。

7.7 因子得分

将因子表示成变量的线性组合(反代)

\(f=Bx\), 其中\(B=(b_{ij})_{m\times p},f\in\mathbb{R}^{m}\)是公共因子, \(x\in\mathbb{R}^p\)是变量。

  • 因子得分函数:\(f=Bx\)
  • 因子得分矩阵:\(B\)

由因子得分函数知: \[ f_j=\sum_{i = 1}^{p}b_{ji}x_i, \quad 1\leq j\leq m \]

7.7.1 因子得分的计算--计算因子得分矩阵\(B\)

假定变量\(\mathbf{x}\)已作标准化处理,即\(E(x_i) = 0\)\(Var(x_i)=1\)\(1\leq i\leq p\)。 令\(R = Cov(\mathbf{x})\)\(R\)也是\(\mathbf{x}\)的相关阵。记\(R=(r_{ij})_{p\times p}\)

假定因子载荷矩阵\(A\)和相关阵\(R\)已知。

对任意\(1\leq i\leq p\)\(1\leq j\leq m\),有: \[ \begin{align} a_{ij}&=E(x_if_j)\\&=\sum_{k = 1}^{p}b_{jk}E(x_ix_k)\\&=\sum_{k = 1}^{p}r_{ik}b_{jk} \end{align} \] 因此对\(1\leq j\leq m\),有: \[ \begin{pmatrix} r_{11}&r_{12}&\cdots&r_{1p}\\ r_{21}&r_{22}&\cdots&r_{2p}\\ \vdots&\vdots&\ddots&\vdots\\ r_{p1}&r_{p2}&\cdots&r_{pp} \end{pmatrix} \begin{pmatrix} b_{j1}\\ b_{j2}\\ \vdots\\ b_{jp} \end{pmatrix} = \begin{pmatrix} a_{1j}\\ a_{2j}\\ \vdots\\ a_{pj} \end{pmatrix} \]

Ch8 判别分析

不考的:

  • 贝叶斯估计、容许性
  • Fisher判别
  • SVM

8.1 马氏距离(Mahalanobis距离)

假设有两个正态总体\(G_1,G_2\),分布分别为\(N_m(\mu_1,V),N_m(\mu_2,V)\). 判断样本y来自哪个总体。

\(x\)\(y\)是来自于均值为\(\mu\),协方差阵为\(\Sigma\)的总体\(G\)的两个样本,定义样本之间的马氏距离为: \[ d^2(x,y)=(x - y)'\Sigma^{-1}(x - y). \] 定义\(x\)与总体的距离\(x\)与均值\(\mu\)的距离,即: \[ d^2(x,G)=(x - \mu)'\Sigma^{-1}(x - \mu). \]

8.1.1 总体具有相同协方差--线性

假定两个总体\(G_1,G_2\)具有相同的协方差阵\(V\).

我们先考虑总体\(G_1\)\(G_2\)分别服从正态分布\(N_m(\mu_1, V)\)\(N_m(\mu_2, V)\)的距离判别方法,然后给出一般总体的判别方法。

思路:利用样本到总体的马氏距离进行判断。 \[ d^2(y, G_1)=(y - \mu_1)'V^{-1}(y - \mu_1)\\ d^2(y, G_2)=(y - \mu_2)'V^{-1}(y - \mu_2) \]

样本到总体的距离差为: \[ d^2(y, G_1)-d^2(y, G_2)=-2\left(y - \frac{\mu_1 + \mu_2}{2}\right)'V^{-1}(\mu_1 - \mu_2) \] 记: \[ \bar{\mu}=\frac{\mu_1 + \mu_2}{2}\\ W(y)=(y - \bar{\mu})'V^{-1}(\mu_1 - \mu_2) \] 有: \[ d^2(y, G_1)-d^2(y, G_2)=-2W(y) \] 判别准则为: \[ \begin{cases}y \in G_1, & \text{若} W(y) \geq 0; \\ y \in G_2, & \text{若} W(y) < 0.\end{cases} \] 若记\(\alpha = V^{-1}(\mu_1 - \mu_2)\),则\(W(y)=\alpha'(y - \bar{\mu})\)\(y\)的线性函数。

则称\(W(y)\)是线性判别函数,称\(\alpha\)是判别系数。

总体参数未知

\(\mu_1\)\(\mu_2\)\(V\)未知时,需要训练样本来估计总体的这些参数。

假设已知有总体\(G_1\)\(n_1\)个样本\(y_1^{(1)}\)\(\cdots\)\(y_{n_1}^{(1)}\),和总体\(G_2\)\(n_2\)个样本\(y_1^{(2)}\)\(\cdots\)\(y_{n_2}^{(2)}\)。 令: \[ \bar{y}^{(1)}=\frac{1}{n_1}\sum_{i = 1}^{n_1}y_i^{(1)},\quad \bar{y}^{(2)}=\frac{1}{n_2}\sum_{i = 1}^{n_2}y_i^{(2)}\\ \begin{align} \hat{V}&=\frac{1}{n_1 + n_2 - 2}\left[\sum_{i = 1}^{n_1}(y_i^{(1)}-\bar{y}^{(1)})(y_i^{(1)}-\bar{y}^{(1)})'+\sum_{i = 1}^{n_2}(y_i^{(2)}-\bar{y}^{(2)})(y_i^{(2)}-\bar{y}^{(2)})'\right]\\ &\overset{\Delta}=\frac{1}{n_1 + n_2 - 2}[S_1 + S_2] \end{align} \] 需要注意的是\(S\)表示离差阵、而\(V\)表示协方差阵。此时的判别函数为: \[ W(y)=\left( y - \frac{\bar{y}^{(1)} + \bar{y}^{(2)}}{2} \right)'\hat{V}^{-1} (\bar{y}^{(1)} - \bar{y}^{(2)}) \] 判别准则同上: \[ \begin{cases} y\in G_1, 若W(y)\ge0\\ y \in G_2,若W(y)< 0 \end{cases} \]

8.1.2 总体协方差不同--二次判别

假设有\(k\)个总体\(G_1,\cdots,G_k\),它们的均值和协差阵分别是\((\mu_1,V_1),\cdots,(\mu_k,V_k)\)

总体参数已知

令: \[ D_i=\left\{y\in R^m:d^2(y,G_i)\leq\min_{1\leq j\leq k,j\neq i}d^2(y,G_j)\right\},\ 1\leq i\leq k \] 则判别规则为: \[ y属于总体G_i\ \text{if}y\in D_i,\ 1\leq i\leq k \]

总体参数未知

使用样本均值和样本协方差阵来估计样本,需要注意的是\(S\)表示离差阵、而\(V\)表示协方差阵。记: \[ \bar{y}^{(i)}=\frac{1}{n_i}\sum_{j = 1}^{n_i}y_j^{(i)},\ 1\leq i\leq k\\ \hat{V}_i=\frac{S_i}{n_i - 1},\ 1\leq i\leq k \]

8.5 误判概率

说是比较简单.

两个正态总体:此时,距离判别、贝叶斯判别和Fisher判别等价。

考虑两个正态总体的情形. \(G_1,G_2\)分别为\(N_m(\mu_1,V)\)\(N_m(\mu_2,V)\)。判别函数为: \[ W(y)=(y - \frac{\mu_1+\mu_2}{2})'V^{-1}(\mu_1 - \mu_2) \]\(P(i|j)\)为样本来自\(G_j\)而被误判为\(G_i\)的概率,\(i\neq j\)。则 : \[ P(2|1)=P\{W(y)\leq d|G_1\}\\ P(1|2)=P\{W(y)>d|G_2\} \] 其中\(d\)为某个常数:距离判别,d=0.

Ch9 聚类分析

考点

  • K-means(普通/动态的一次迭代)

9.1 K-means

由于初始分类数k事先给定,且迭代过程中不断计算类的重心,故称该聚类方法为k均值法(k-means)

--- K-means
1. 初始分类 将几个个体初始分成k类,k事先给定.
2. 修改分类 计算初始k类的重心。然后对每个个体逐一计算它到初始k类的距离(通常用该个体到类的重心的欧氏距离)。若该个体到其原来的类的距离最近,则它保持类不变,否则它移入离其距离最近的类,重新计算由此变动的两个类的重心。
3. 重复迭代 在对所有个体都逐一进行验证,是否需要修改分类之后,重复步骤2),直到没有个体需要移动为止,从而得到最终分类.

9.2 动态K-means

事先给定3个数: 类别数k,阀值 \(c_1\)\(c_2\), \(c_2>c_1> 0\).

相较于K-means, 动态K-means在聚类过程中动态地调整聚类中心的数量 K。通常根据数据的分布和内部结构来自动确定合适的 K 值,避免了手动选择 K 值带来的不确定性。

--- 动态K-means
1. 选取聚点 取前k个个体作为初始聚点,计算这k个聚点两两之间的距离若最小的距离比\(c_1\)小,则将最小距离的这两个聚点合并在一起,并用它们的重心作为新的聚点,重复上述过程,直到所有的聚点两两之间的距离都不比\(c_1\)小时为止,因此,此时聚点的个数可能小于k.
2. 初始分类 对余下的n-k个个体逐一进行计算,对输入的一个个体,分别计算它到所有聚点的距离。若该个体到所有聚点的距离都大于\(c_2\),则它作为一个新的聚点,这时所有聚点两两之间的距离都不比\(c_1\)小,否则将它归入离它最近的那一类,并重新计算接受该个体的那个类的重心以代替该类原来的聚点。然后重复步骤1),再次验证所有聚点两两之间的距离是否都不比\(c_1\)小,如果比\(c_1\)小就将其合并,直到所有聚点两两之间的距离都不比\(c_1\)小时止,该步完成后,聚点的个数可能小于k,也可能大于k
3. 重复迭代 在对所有个体都逐一进行验证,是否需要修改分类之后,重复步骤2),直到没有个体需要移动为止,从而得到最终分类。这时,最终个体的类别数不一定是 k。
搜索
匹配结果数:
未搜索到匹配的文章。