Ch2 贝叶斯决策(Bayesian Decision Theory)

$P( \cdot )$: 表示概率分布函数，$p(\cdot)$: 表示概率密度函数PDF.

$p(\mathbf{x}|w_i)$是$w_i$关于$\mathbf{x}$的似然函数，表明在其他条件都相等的情况下，使得$p(\mathbf{x}|w_i)$较大的$w_i$更有可能是真实类别。(likelihood)

	最小错误率贝叶斯决策	最小风险贝叶斯决策
目标	使分类的错误率最小。	使决策的风险最小。
--	只考虑了错误分类的概率。	考虑了不同类型错误的代价。
	将$\mathbf{x}$分到后验概率最大的一类。	衡量当样本实际属于某类但被决策$\alpha_i$时所产生的风险, 再进行判别。

最小错误率bayes决策

任务：对于观测样本$\mathbf{x}$, 如何将其分类？

已知	公式表达
类别	$w_i,\quad i=1,\dots,c$
特征向量	$\mathbf{x}=[x_1,\dots,x_d]\in\mathbb{R^d}$
先验概率	$P(w_i),\quad \sum^c_{i=1}P(w_i)=1$
条件概率/PDF	$p(\mathbf{x}\|w_i)$

贝叶斯决策：

后验概率： \[ P(w_i | \mathbf{x}) = \frac{p(\mathbf{x} | w_i) P(w_i)}{p(\mathbf{x})} = \frac{p(\mathbf{x} | w_i) P(w_i)}{\sum_{j = 1}^{c} p(\mathbf{x} | w_j) P(w_j)} \]

决策规则：如果$p(w_i|\mathbf{x})=\max_{j=1,2,\dots,c }p(w_j|\mathbf{x})$, 则$\mathbf{x}\in w_i$

其他等价形式： \[ p(\mathbf{x} | w_1) P(w_1) > p(\mathbf{x} | w_2) P(w_2)\\ l(\mathbf{x}) = \frac{p(\mathbf{x}| w_1)}{p(\mathbf{x} | w_2)} > \frac{P(w_2)}{P(w_1)}\\ - \ln(l(\mathbf{x})) = - \ln(p(\mathbf{x}| w_1)) + \ln(p(\mathbf{x} | w_2)) < - \ln(\frac{P(w_2)}{P(w_1)}) \] 则$\mathbf{x}\in w_1$, 否则$\mathbf{x}\in w_2$

例子

假设在某个局部地区细胞中正常($w_1$)和异常($w_2$)两类的先验概率为$P(w_1)=0.9$和$P(w_2)=0.1$。现有一待识别细胞，其观测值为$x$，从类条件概率密度分布曲线中查得：$p(\mathbf{x}|w_1)=0.2$，$p(\mathbf{x}|w_2)=0.4$。试对该细胞进行分类。

解：因为$P(w_1|\mathbf{x})>P(w_2|\mathbf{x})$，根据贝叶斯决策规则，所以合理的决策是将$\mathbf{x}$归为正常类。 \[ P(w_1|\mathbf{x})=\frac{p(\mathbf{x}|w_1)P(w_1)}{\sum_{j = 1}^{2}p(\mathbf{x}|w_j)P(w_j)}=\frac{0.2\times0.9}{0.2\times0.9 + 0.4\times0.1}=0.818\\ P(w_2|\mathbf{x})=1 - P(w_1|\mathbf{x})=0.182 \]

最小风险bayes决策

风险是和损失关联在一起的。
决策/行为：采取的决定。
决策/行为空间：所有可能采取的各种决策组成的集合。
每个决策/行为都会带来损失，损失是决策和自然状态(类别)的函数。

任务：对于观测样本$\mathbf{x}$, 将其分到哪一类风险最小？

已知	公式表达
类别	$w_i,\quad i=1,\dots,c$
特征向量	$\mathbf{x}=[x_1,\dots,x_d]\in\mathbb{R^d}$
先验概率	$P(w_i),\quad \sum^c_{i=1}P(w_i)=1$
条件概率/PDF	$p(\mathbf{x}\|w_i)$
决策空间	$\{\alpha_i\},\quad i=1,2,\dots,a$
损失函数	$\lambda(\alpha_i\|w_j)$

损失函数：表示当类别为$w_j$时所采取的决策$\alpha_i$所引起的损失，简记为$\lambda_{ij}$ .

那么我们将做出决策$\alpha_i$，但是这个决策对于的$\mathbf{x}$的真实类别是确定的、但是我们不知道。所以我们要计算：

条件风险：条件期望风险$R(\alpha_i|\mathbf{x})$, 是随机变量$\mathbf{x}$的函数。 \[ R(\alpha_i|\mathbf{x})=E[\lambda(\alpha_i|w_j)]=\sum^c_{j=1}\lambda(\alpha_i|w_j)P(w_j|\mathbf{x}) \]

$P(w_j|\mathbf{x})$表示的是$\mathbf{x}$实际类别为$w_j$时的概率，再乘以现在做出了$\alpha_i$决策对应的损失函数，$R(\alpha_i|\mathbf{x})$对应$\mathbf{x}$做了决策$\alpha_i$的损失。

期望风险(总风险)：将决策规则视为随机变量$\mathbf{x}$的函数，记为$\alpha(\mathbf{x})$。对特征空间中所有可能的样本$\mathbf{x}$采取的决策所造成的期望损失(平均风险)是: \[ R(\alpha)=\int R(\alpha(\mathbf{x})|\mathbf{x})\cdot p(\mathbf{x}) d\mathbf{x} \]

-	期望风险$R(\alpha)$	条件风险$R(\alpha_i\|\mathbf{x})$
	反映对整个特征空间上所有样本所采取的相应决策所带来的平均风险.	只反映对样本$\mathbf{x}$采取决策$\alpha_i$所带来的风险.
区别	理论推导	实际操作
决策规则	最小化期望风险$\min_aR(a)$	在各中决策中选择风险最小的决策$a=\arg\min_{j=1,\dots,a}R(\alpha_j\|\mathbf{x})$

c=2且无拒识

假设没有拒识(分类器拒绝分类, 当最大后验不高(置信低), 可能是不可分的情况)($a=c=2$): \[ R(\alpha_1|\mathbf{x}) = \lambda_{11}P(w_1|\mathbf{x})+\lambda_{12}P(w_2|\mathbf{x})\\ R(\alpha_2|\mathbf{x}) = \lambda_{21}P(w_1|\mathbf{x})+\lambda_{22}P(w_2|\mathbf{x})\\ \] 决策规则：$R(\alpha_1|\mathbf{x})<R(\alpha_2|\mathbf{x})$, $\alpha=\alpha_1$(表示将选择$w_1$是$\mathbf{x}$的类别)

其他等价形式:

不失一般性，可以假设$\lambda_{11}<\lambda_{21}$，$\lambda_{22}<\lambda_{12}$，于是有：

若$(\lambda_{11}-\lambda_{21})P(w_1|x)<(\lambda_{22}-\lambda_{12})P(w_2|x)$，则$x\in{w}_1$；否则$x\in{w}_2$

若$\frac{P(w_1|x)}{P(w_2|x)}>\frac{\lambda_{22}-\lambda_{12}}{\lambda_{11}-\lambda_{21}}$，则$x\in{w}_1$；否则$x\in{w}_2$

若$\frac{p(x|w_1)}{p(x|w_2)}>\frac{P(w_2)}{P(w_1)}\cdot\frac{\lambda_{22}-\lambda_{12}}{\lambda_{11}-\lambda_{21}}$，则$x\in{w}_1$；否则$x\in{w}_2$

例: 最小风险bayes决策

假设在某个局部地区细胞中正常$(w_1)$和异常$(w_2)$两类的先验概率为$P(w_1)=0.9$和$P(w_2)=0.1$。现有一待识别细胞，其观测值为$x$，从类条件概率密度分布曲线中查得：$p(x|w_1)=0.2$，$p(x|w_2)=0.4$。已知决策风险$\lambda_{11}=0$，$\lambda_{12}=6$，$\lambda_{22}=0$，$\lambda_{21}=1$。试对该细胞进行分类。

解：前面已经解得$P(w_1|x)=0.818$；$P(w_2|x)=0.182$；

进一步计算条件风险： \[ R(\alpha_1|x)=\lambda_{11}P(\omega_1|x)+\lambda_{12}P(\omega_2|x)=0\times0.818 + 6\times0.182=1.092\\ R(\alpha_2|x)=\lambda_{21}P(\omega_1|x)+\lambda_{22}P(\omega_2|x)=1\times0.818+0\times0.182=0.818 \] 由于$R(\alpha_2|x)<R(\alpha_1|x)$，即决策为$w_2$的条件风险小于决策为$w_1$的条件风险，因此采取决策行动$\alpha_2$，即判定待别的细胞为异常细胞。

条件风险是0-1损失

假如条件风险是0-1损失，则有: \[ \lambda(\alpha_i|\omega_j)=\begin{cases}0, & i = j\\1, & i\neq j\end{cases},\quad i,j=1,2,\ldots,c\\ R(\alpha_i|x)=\sum_{j = 1}^{c}\lambda(\alpha_i|\omega_j)P(\omega_j|x)=\sum_{i\neq j}P(\omega_j|x)=1 - P(\omega_i|x) \] 那么最小错误决策、最大后验（MAP）：

若对于所有$j\neq i$，有$P(w_i|x)>P(w_j|x)$，则判定为$w_i$

此图给出了决策规则+$p(\mathbf{x}|w_i), p(w_i|\mathbf{x})$+似然比$\frac{p(\mathbf{x}|w_1)}{p(\mathbf{x}|w_2)}$.

存在一个问题：当$\theta_a=0.5$时如何决策？引入带拒识的决策。

c=c+1且带拒识

Q: why 拒识？

错误识别可能带来严重后果。

Q: 是否每次一定要做出决策?

在有的情况下，不做决策比做出错误率很大的决策会更好。

具有c + 1个类别(分类器可以拒绝将样本判为c个类别中的任何一类)

假设： \[ \lambda(\alpha_i | w_j) = \begin{cases} 0, & i = j \\ \lambda_s, & i \neq j \\ \lambda_r, & \text{reject} (\text{通常} \lambda_r < \lambda_s) \end{cases} \] 风险： \[ R(\alpha_i | \mathbf{x}) = \sum_{j = 1}^{c} \lambda(\alpha_i | w_j) P(w_j | \mathbf{x})\\ R_i(\mathbf{x}) \triangleq R(\alpha_i | \mathbf{x}) = \begin{cases} \lambda_s [1 - P(w_i | \mathbf{x})], & i = 1, \ldots, c \\ \lambda_r, & \text{reject} \end{cases} \] 当 $\lambda_s [1 - P(w_i | \mathbf{x})] > \lambda_r$时，选择拒识。

因此有以下决策规则： \[ \arg \min_i R_i(\mathbf{x}) = \begin{cases} \arg \max_i P(w_i | \mathbf{x}), & \text{if } \max_i P(w_i | \mathbf{x}) > 1 - \lambda_r / \lambda_s \\ \text{reject}, & \text{otherwise} \end{cases} \]

开放集分类bayes决策

传统的分类器：假设训练样本和测试样本都来自预设的C个类别（闭合集, Closed set）。

开放集(Open set)：实际环境中，测试样本可能不属于预设的C个类别（异常样本, outlier）。

开放集的难点是异常样本没有训练集，只能训练已知C类的分类器。

问题表示

已知	公式
类别	$w_i, i = 1, \ldots, c$
先验概率	$\sum_{i = 1}^{c} P(w_i) \leq 1$
后验概率	$\sum_{i = 1}^{c} P(w_i\|\mathbf{x})\le 1,\ \sum^{c+1}_{j=0}P(w_i\|\mathbf{x})=1$
条件概率密度	$p(\mathbf{x} \|w_i), (i = 1, \ldots, c)\\ p(\mathbf{x} \|w_{c + 1}) =?$

分类决策

假设：$p(\mathbf{x} | w_{c + 1}) = \rho$，$\rho$为很小的常数

后验概率： \[ P(w_i | \mathbf{x}) =\frac{p(\mathbf{x} | w_i) P(w_i)}{p(\mathbf{x})}= \frac{p(\mathbf{x} | w_i) P(w_i)}{\sum_{j = 1}^{c + 1} p(\mathbf{x} | w_j) P(w_j)} \] 最大后验概率决策： \[ \begin{cases} \text{in - class}, & \text{if } \max_{i = 1, \ldots, c} p(\mathbf{x} | w_i) P(w_i) > \rho P(w_{c + 1}) \\ \text{outlier}, & \text{otherwise} \end{cases} \]

分类器设计

判别函数

用于表达决策规则的某些函数称为判别函数。

通常定义一组判别函数$g_i(\mathbf{x})$，$i = 1,2,\ldots,c$用于表示多类决策规则。

如果$g_i(\mathbf{x})>g_j(\mathbf{x})$对任意$j\neq i$均成立，则将$\mathbf{x}$归于$w_i$类。

参照贝叶斯决策规则，我们可以定义： \[ g_i(\mathbf{x})=P(\omega_i|\mathbf{x})\\ g_i(\mathbf{x})=p(\mathbf{x}|\omega_i)P(\omega_i)\\ g_i(\mathbf{x})=\ln(p(\mathbf{x}|\omega_i))+\ln(P(\omega_i))\\ g_i(\mathbf{x})=\int p(\mathbf{x}|\omega_i)+h(\mathbf{x},\omega_i)\ \text{更一般情形} \]

c=2情形下的判别函数

对于两类情形，只需要定义一个判别函数：
\[ \begin{align} g(\mathbf{x})&=P(w_1|\mathbf{x})-P(w_2|\mathbf{x})\\ g(\mathbf{x})&=p(\mathbf{x}|w_1)P(w_1)-p(\mathbf{x}|w_2)P(w_2)\\ g(\mathbf{x})&=\ln(p(\mathbf{x}|w_1))-\ln(p(\mathbf{x}|w_2))+\ln(P(w_1))-\ln(P(w_2))\\ g(\mathbf{x})&=R(\alpha_1|\mathbf{x})-R(\alpha_2|\mathbf{x}) \end{align} \]

决策面

对于$c$类分类问题，按照决策规则可以把$d$维特征空间分成$c$个决策区域$R_i$，$i = 1,2,\ldots,c$。划分决策区域的边界称为决策面。

各决策域$R_i$被决策面分割而成。这些决策面是特征空间中的超曲面，相邻的两个决策域在决策面上其判别函数值是相等的。如果$R_i$和$R_j$是相邻的，则它们的决策面方程应满足：$g_i(\mathbf{x})=g_j(\mathbf{x})$

c=2情形下的决策面方程

$g(\mathbf{x})=0$
$\mathbf{x}$为一维时，决策面为一些分界点；二维时，决策面为一些曲线（曲线段）；三维时，决策面为一些曲面（曲面片）；高维时则为一些超曲面（超曲面片）。
若$g(\mathbf{x})$为线性判别函数，则为平面或平面片。

分类器设计

分类器可以看成一个机器，其功能是计算出 c 个判别函数，然后再从中选出对应于判别函数为最大值的类作为分类结果。

高斯密度下的判别函数

高斯分布

在给定均值和方差的所有分布中，正态分布的熵最大
根据Central Limit Theorem(中心极限定理)，大量独立随机变量之和趋近正态分布
实际环境中，很多类别的特征分布趋近正态分布

多元正态分布：$\mathbf{x} = [x_1, x_2, \ldots, x_d]^T \in \mathbb{R}^d,\ \boldsymbol{\mu} = [\mu_1, \mu_2, \ldots, \mu_d]^T \in \mathbb{R}^d$

$\boldsymbol{\Sigma} \in \mathbb{R}^{d\times d}$: \[ \sigma_{ij}^2 = E\{(x_{i} - \mu_{i})(x_{j} - \mu_{j})\} = \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} (x_{i} - \mu_{i})(x_{j} - \mu_{j}) p(x_{i}, x_{j}) dx_{i} dx_{j} \] 边际分布密度函数： \[ p(x_i) = \int_{-\infty}^{+\infty} \cdots \int_{-\infty}^{+\infty} p(\mathbf{x}) dx_1 dx_2 \cdots dx_{i - 1} dx_{i + 1} \cdots dx_d \]

	单变量正态分布	多元正态分布
	$x \sim N(\mu, \sigma^2)$	$\mathbf{x} \sim N_p(\boldsymbol{\mu}, \boldsymbol{\Sigma})$
密度函数	$p(x) = ( - ( )^2 ) $	$p(\mathbf{x}) = \frac{1}{(2\pi)^{d/2} \\|\boldsymbol{\Sigma}\|^{1/2}} \exp \left( - \frac{1}{2} (\mathbf{x} - \boldsymbol{\mu})^T \boldsymbol{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu}) \right)$
均值	$= E{x} = _{-}^{+} x p(x) d $	$\mu_i = E\{x_i\} = \int_{-\infty}^{+\infty} \cdots \int_{-\infty}^{+\infty} x_i p(\mathbf{x}) d\mathbf{x}_1 d\mathbf{x}_2 \cdots d\mathbf{x}_d\\\boldsymbol{\mu} = E\{\mathbf{x}\} \in \mathbb{R}^d$
方差	$^2 = _{-}^{+} (x - )^2 p(x) d $	$\boldsymbol{\Sigma} = E\{(\mathbf{x} - \boldsymbol{\mu})(\mathbf{x} - \boldsymbol{\mu})^T\} = \begin{bmatrix} \sigma_{11}^2 & \sigma_{12}^2 & \cdots & \sigma_{1d}^2 \\ \sigma_{12}^2 & \sigma_{22}^2 & \cdots & \sigma_{2d}^2 \\ \vdots & \vdots & \ddots & \vdots \\ \sigma_{1d}^2 & \sigma_{2d}^2 & \cdots & \sigma_{dd}^2 \end{bmatrix}$
性质	$p(x) ,-< x < +,\_{-}^{+} p(x) d = 1 $	$p(x_i) = \int_{-\infty}^{+\infty} \cdots \int_{-\infty}^{+\infty} p(\mathbf{x}) d\mathbf{x}_1 d\mathbf{x}_2 \cdots d\mathbf{x}_{i - 1} d\mathbf{x}_{i + 1} \cdots d\mathbf{x}_d$

等密度轨迹

等密度轨迹为一超椭球面。从多元正态分布函数可以看出，当其指数项等于常数时，密度$p(\mathbf{x})$的值不变，因此等函数点即为使如下方程为常数的点，即： $( - )^T ^{-1} ( - ) = const. $

Mahalanobis距离（马氏距离）: $r^2=(\mathbf{x}-\mathbf{\mu})^T\Sigma^{-1}(\mathbf{x}-\mathbf{\mu})$

性质

不相关性=独立性
边缘分布与条件分布均为正态分布
多元正态随机变量的线性变换（非奇异）仍为多元正态分布的随机变量
线性组合的正态性：若$\mathbf{x}$为多元正态随机变量，则线性组合$\mathbf{y} = \mathbf{a}^T \mathbf{x}$是一个一维正态随机变量。
对多元正态分布的协方差矩阵$\Sigma$可以进行正交分解。
1. \[ \Sigma=U\Lambda U^T \]
  
  $U$是$\Lambda$对应特征值的特征向量构成的矩阵，属于$R(\Sigma)$值域空间。
线性变换 $y=A^T\mathbf{x},\ y\sim N(A^T\mu,A^T\Sigma A)$ \[ Cov(AX)=ACov(X)A^T\\ 令A_w=U\Lambda^{-1/2},Cov(A^TX)=\Lambda^{-1/2}U\Sigma U\Lambda^{-1/2}=\Lambda^{-1/2}\Lambda\Lambda^{-1/2}=I \] 白化变换：对$\Sigma$进行归一化变成$I$.

最小错误率贝叶斯决策

对于$c$类问题，假定各类条件概率密度函数为多元正态分布： \[ p(\mathbf{x}|\omega_i) \sim N(\boldsymbol{\mu}_i, \boldsymbol{\Sigma}_i), \quad i = 1,2,\ldots,c \] 判别函数(Quadratic discrimin function (QDF))：$(i = 1,2,,c) $ \[ \begin{align}g_i(\mathbf{x})&=\ln(p(\mathbf{x}|\omega_i))+\ln(P(\omega_i))\\ &=-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu}_i)^T\boldsymbol{\Sigma}_i^{-1}(\mathbf{x}-\boldsymbol{\mu}_i)-\frac{d}{2}\ln(2\pi)-\frac{1}{2}\ln(|\boldsymbol{\Sigma}_i|)+\ln(P(\omega_i)) \end{align} \] 决策面方程 : \[ g_i(\mathbf{x})=g_j(\mathbf{x})\\ -\frac{1}{2}\left((\mathbf{x}-\boldsymbol{\mu}_i)^T\boldsymbol{\Sigma}_i^{-1}(\mathbf{x}-\boldsymbol{\mu}_i)-(\mathbf{x}-\boldsymbol{\mu}_j)^T\boldsymbol{\Sigma}_j^{-1}(\mathbf{x}-\boldsymbol{\mu}_j)\right)-\frac{1}{2}\ln\left(\frac{|\boldsymbol{\Sigma}_i|}{|\boldsymbol{\Sigma}_j|}\right)+\ln\left(\frac{P(\omega_i)}{P(\omega_j)}\right)=0 \]

第一种情形：$\boldsymbol{\Sigma}_i=\sigma^2\mathbf{I}, \quad i = 1,2,\ldots,c$

这表明每个特征向量对应的方差都是独立同分布。

协方差矩阵: \[ \boldsymbol{\Sigma}_i=\begin{bmatrix} \sigma^2 & 0 & \cdots & 0 \\ 0 & \sigma^2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \sigma^2 \end{bmatrix}, \quad |\boldsymbol{\Sigma}_i|=\sigma^{2d}, \quad \boldsymbol{\Sigma}_i^{-1}=\frac{1}{\sigma^2}\mathbf{I} \] 判别函数(Quadratic discrimin function (QDF))： \[ \begin{align}g_i(\mathbf{x})&=-\frac{1}{2\sigma^2}(\mathbf{x}-\boldsymbol{\mu}_i)^T(\mathbf{x}-\boldsymbol{\mu}_i)-\frac{d}{2}\ln(2\pi)-\frac{1}{2}\ln(\sigma^{2d})+\ln(P(w_i))\\ &=-\frac{1}{2\sigma^2}(\mathbf{x}-\boldsymbol{\mu}_i)^T(\mathbf{x}-\boldsymbol{\mu}_i)+\ln(P(w_i))\\ &=-\frac{1}{2\sigma^2}\|\mathbf{x}-\boldsymbol{\mu}_i\|^2_2+\ln(P(w_i)) \end{align} \]

先验概率相等：$P(w_i)=P(w_j)$

此时，判别函数可进一步简化为： \[ g_i(\mathbf{x})=-\frac{1}{2\sigma^2}\|\mathbf{x}-\boldsymbol{\mu}_i\|^2_2 \] 因此，最小错误率贝叶斯规则相当简单：

若要对样本$\mathbf{x}$进行分类，只需要计算$\mathbf{x}$到各类均值向量的欧氏距离平方，然后将归于距离最短的一类： \[ \arg\min_{i = 1,2,\ldots,c}\|\mathbf{x}-\boldsymbol{\mu}_i\|^2 \] 这种分类器称为最小距离分类器。

先验概率不相等：$P(w_i)\neq P(w_j)$

判别函数： \[ \begin{align}g_i(\mathbf{x})&=-\frac{1}{2\sigma^2}(\mathbf{x}-\boldsymbol{\mu}_i)^T(\mathbf{x}-\boldsymbol{\mu}_i)+\ln(P(w_i))\\ &=-\frac{1}{2\sigma^2}(\mathbf{x}^T\mathbf{x}-2\boldsymbol{\mu}_i^T\mathbf{x}+\boldsymbol{\mu}_i^T\boldsymbol{\mu}_i)+\ln(P(w_i))\\ &=\frac{1}{\sigma^2}\boldsymbol{\mu}_i^T\mathbf{x}-\frac{1}{2\sigma^2}\boldsymbol{\mu}_i^T\boldsymbol{\mu}_i+\ln(P(w_i))\\ &= \mathbf{w}_i^T\mathbf{x}+\mathrm w_{i0} \end{align} \] 由于每一类的判别函数均包含$\mathbf{x}^T\mathbf{x}$，与下标$i$无关，因此可以进一步简化为线性判别函数,得到判别函数$g_i(\mathbf{x})$是$\mathbf{x}$的线性函数。 \[ g_i(x)=\mathbf{w}_i^T\mathbf{x}+\mathrm w_{i0}\\ \begin{cases}\mathbf{w}_i&=\frac{1}{\sigma^2}\boldsymbol{\mu}_i\\ \mathrm w_{i0}&=\ln(P(w_i))-\frac{1}{2\sigma^2}\boldsymbol{\mu}_i^T\boldsymbol{\mu}_i\end{cases} \]

决策规则：若$g_k(\mathbf{x})=\max_{i}g_i(\mathbf{x})$，则$\mathbf{x}\in w_k$

判别函数为线性函数的分类器称为线性分类器。

线性分类器的决策面方程为：$g_i(\mathbf{x}) - g_j(\mathbf{x})=0$所确定的一个超平面。 \[ g_i(\mathbf{x})-g_j(\mathbf{x})=0 \Rightarrow \mathbf{w}^T(\mathbf{x}-\mathbf{x}_0)=0 \]

先验概率相等$P(w_i)=P(w_j)$	先验概率不等$P(w_i)\neq P(w_j)$
$\mathbf{w}=\boldsymbol{\mu}_i - \boldsymbol{\mu}_j$	$\mathbf{w}=\boldsymbol{\mu}_i - \boldsymbol{\mu}_j$
$\mathbf{x}_0=\frac{1}{2}(\boldsymbol{\mu}_i+\boldsymbol{\mu}_j)$	$\begin{align}\mathbf{x}_0&=\frac{1}{2}(\boldsymbol{\mu}_i+\boldsymbol{\mu}_j)-\frac{\sigma^2}{\\|\boldsymbol{\mu}_i - \boldsymbol{\mu}_j\\|^2}\ln\left(\frac{P(w_i)}{P(w_j)}\right)(\boldsymbol{\mu}_i - \boldsymbol{\mu}_j)\\&=\frac{1}{2}(\boldsymbol{\mu}_i+\boldsymbol{\mu}_j)-s_{ij}(\boldsymbol{\mu}_i - \boldsymbol{\mu}_j)\end{align}$

先验概率相等：取欧式距离的中点划分。

先验概率不等：根据$s_{ij}$的大小会偏斜先验概率较小的一边。

$P(w_i)> P(w_j),s_{ij}>0$: 会向$R_j$偏.

$P(w_i)< P(w_j),s_{ij}>0$: 会向$R_i$偏.

第二种情形：$\boldsymbol{\Sigma}_i=\boldsymbol{\Sigma}, \quad i = 1,2,\ldots,c$

各类的协方差矩阵均相等。从几何上看，相当于各类样本集中于以该类均值$\boldsymbol{\mu}_i$为中心但大小和形状相同的椭球内。

判别函数（Quadratic discriminant function (QDF)）： \[ \begin{align}g_i(\mathbf{x})&=\ln(p(\mathbf{x}|\omega_i))+\ln(P(\omega_i))\\ &=-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu}_i)^T\boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu}_i)-\frac{d}{2}\ln(2\pi)-\frac{1}{2}\ln(|\boldsymbol{\Sigma}|)+\ln(P(\omega_i))\\ &=-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu}_i)^T\boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu}_i)+\ln(P(\omega_i)) \end{align} \]

先验概率相等：$P(w_i)=P(w_j)$

判别函数： \[ g_i(\mathbf{x})=r^2 = (\mathbf{x}-\boldsymbol{\mu}_i)^T\boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu}_i) \] 决策规则：若要对样本$\mathbf{x}$进行分类，只需要计算$\mathbf{x}$到各类均值向量的马氏距离平方，然后将归于距离最短的一类：
\[ \arg\min_{i = 1,2,\ldots,c}(\mathbf{x}-\boldsymbol{\mu}_i)^T\boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu}_i) \]

先验概率不相等：$P(w_i)\neq P(w_j)$

判别函数： \[ \ \begin{align} g_i(\mathbf{x})&=-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu}_i)^T\boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu}_i)+\ln(P(\omega_i)) \\ &=-\frac{1}{2}(\mathbf{x}^T\boldsymbol{\Sigma}^{-1}\mathbf{x}-2\boldsymbol{\mu}_i^T\boldsymbol{\Sigma}^{-1}\mathbf{x}+\boldsymbol{\mu}_i^T\boldsymbol{\Sigma}^{-1}\boldsymbol{\mu}_i)+\ln(P(\omega_i)) \\ &=\boldsymbol\mu_i^T\boldsymbol\Sigma^{-1}\mathbf{x}-\frac 1 2 \boldsymbol{\mu}_i^T\boldsymbol{\Sigma}^{-1}\boldsymbol{\mu}_i+\ln(P(\omega_i)) \\ &=\mathbf{w}_i^T\mathbf{x}+\mathrm w_{i0}\\\\ &\begin{cases} \mathbf{w}_i&=\boldsymbol{\Sigma}^{-1}\boldsymbol{\mu}_i\\ \mathrm w_{i0}&=\ln(P(\omega_i))-\frac{1}{2}\boldsymbol{\mu}_i^T\boldsymbol{\Sigma}^{-1}\boldsymbol{\mu}_i \end{cases} \end{align} \]

决策面方程：$g_i(\mathbf{x})-g_j(\mathbf{x})=0$

展开可得：$\mathbf{w}^T(\mathbf{x}-\mathbf{x}_0)=0$ ( 这是线性判别函数 )

先验概率相等$P(w_i)=P(w_j)$	先验概率不相等$P(w_i)\neq P(w_j)$
$\mathbf{w}=\boldsymbol{\Sigma}^{-1}(\boldsymbol{\mu}_i-\boldsymbol{\mu}_j)$	$\mathbf{w}=\boldsymbol{\Sigma}^{-1}(\boldsymbol{\mu}_i-\boldsymbol{\mu}_j)$
$\mathbf{x}_0=\frac{1}{2}(\boldsymbol{\mu}_i+\boldsymbol{\mu}_j)$	$\begin{align}\mathbf{x}_0&=\frac{1}{2}(\boldsymbol{\mu}_i+\boldsymbol{\mu}_j)-\frac{\sigma^2}{\\|\boldsymbol{\mu}_i-\boldsymbol{\mu}_j\\|^2}\ln\left(\frac{P(w_i)}{P(w_j)}\right)(\boldsymbol{\mu}_i-\boldsymbol{\mu}_j)\\&=\frac{1}{2}(\boldsymbol{\mu}_i+\boldsymbol{\mu}_j)-s_{ij}(\boldsymbol{\mu}_i-\boldsymbol{\mu}_j) \end{align}$

第三种情形：$\boldsymbol{\Sigma}_i\neq\boldsymbol{\Sigma}_j, \quad i,j = 1,2,\ldots,c$

判别函数： \[ \begin{align}g_i(\mathbf{x})&=\ln(p(\mathbf{x}|\omega_i))+\ln(P(\omega_i))\\ &=-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu}_i)^T\boldsymbol{\Sigma}_i^{-1}(\mathbf{x}-\boldsymbol{\mu}_i)-\frac{d}{2}\ln(2\pi)-\frac{1}{2}\ln(|\boldsymbol{\Sigma}_i|)+\ln(P(\omega_i))\\ &=-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu}_i)^T\boldsymbol{\Sigma}_i^{-1}(\mathbf{x}-\boldsymbol{\mu}_i)-\frac{1}{2}\ln(|\boldsymbol{\Sigma}_i|)+\ln(P(\omega_i))\\ &=\mathbf{x}^T\mathbf{W}_i\mathbf{x}+\mathbf{w}_i^T\mathbf{x}+\mathrm w_{i0}\\ &\begin{cases} \mathbf{W}_i &= -\frac{1}{2}\boldsymbol{\Sigma}_i^{-1}\\ \mathbf{w}_i&=\boldsymbol{\Sigma}_i^{-1}\boldsymbol{\mu}_i\\ \mathrm w_{i0}&=-\frac{1}{2}\boldsymbol{\mu}_i^T\boldsymbol{\Sigma}_i^{-1}\boldsymbol{\mu}_i-\frac{1}{2}\ln(|\boldsymbol{\Sigma}_i|)+\ln(P(\omega_i)) \end{cases} \end{align} \] 决策方程： \[ g_i(\mathbf{x})-g_j(\mathbf{x})=0\\ \mathbf{x}^T(\mathbf{W}_i-\mathbf{W}_j)\mathbf{x}+(\mathbf{w}_i-\mathbf{w}_j)^T\mathbf{x}+w_{i0}-w_{j0}=0 \] 决策面为一个超二次曲面。随着$\boldsymbol{\Sigma}_i$、$\boldsymbol{\mu}_i$、$P(w_i)$等的不同而呈现出超球面、超椭球面、超双曲面或超平面等不同的情形。

例子: c=2, 2D

\[ P(\omega_1)=P(\omega_2)=0.5\\\boldsymbol{\mu}_1 = \begin{bmatrix} 3 \\ 6 \end{bmatrix} ; \boldsymbol{\Sigma}_1 = \begin{bmatrix} 1/2 & 0 \\ 0 & 2 \end{bmatrix} ; \boldsymbol{\Sigma}_1^{-1} = \begin{bmatrix} 2 & 0 \\ 0 & 1/2 \end{bmatrix}\\ \boldsymbol{\mu}_2 = \begin{bmatrix} 3 \\ -2 \end{bmatrix} ; \boldsymbol{\Sigma}_2 = \begin{bmatrix} 2 & 0 \\ 0 & 2 \end{bmatrix} ; \boldsymbol{\Sigma}_2^{-1} = \begin{bmatrix} 1/2 & 0 \\ 0 & 1/2 \end{bmatrix} \]

对于两类问题，$\boldsymbol{\Sigma}_i\neq\boldsymbol{\Sigma}_j$，先验相等。 \[ g_i(\mathbf{x})=-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu}_i)^T\boldsymbol{\Sigma}_i^{-1}(\mathbf{x}-\boldsymbol{\mu}_i)-\frac{1}{2}\ln(|\boldsymbol{\Sigma}_i|)+\ln(P(\omega_i)) \] 决策面方程为$g_1(\mathbf{x}) - g_2(\mathbf{x}) = 0$。 \[ (\mathbf{x}-\boldsymbol{\mu}_1)^T\boldsymbol{\Sigma}_1^{-1}(\mathbf{x}-\boldsymbol{\mu}_1)+\ln(|\boldsymbol{\Sigma}_1|)=(\mathbf{x}-\boldsymbol{\mu}_2)^T\boldsymbol{\Sigma}_2^{-1}(\mathbf{x}-\boldsymbol{\mu}_2)+\ln(|\boldsymbol{\Sigma}_2|)\\ (\mathbf{x}-\boldsymbol{\mu}_1)^T\boldsymbol{\Sigma}_1^{-1}(\mathbf{x}-\boldsymbol{\mu}_1)=(x_1 - 3, x_2 - 6)\left[\begin{matrix}2&0\\0&1/2\end{matrix}\right]\left[\begin{matrix}x_1 - 3\\x_2 - 6\end{matrix}\right]\\ \ln(|\boldsymbol{\Sigma}_1|)=\ln(1)=0,\ln(|\boldsymbol{\Sigma}_2|)=\ln(4)=2\ln(2)\\ (\mathbf{x}-\boldsymbol{\mu}_2)^T\boldsymbol{\Sigma}_2^{-1}(\mathbf{x}-\boldsymbol{\mu}_2)=(x_1 - 3, x_2 + 2)\left[\begin{matrix}1/2&0\\0&1/2\end{matrix}\right]\left[\begin{matrix}x_1 - 3\\ x_2 + 2\end{matrix}\right]\\ \]

\[ -(2(x_1 - 3)^2+\frac{1}{2}(x_2 - 6)^2)+(\frac{1}{2}(x_1 - 3)^2+\frac{1}{2}(x_2 + 2)^2)+2\ln(2)=0\\ -2(x_1 - 3)^2-\frac{1}{2}(x_2 - 6)^2+\frac{1}{2}(x_1 - 3)^2+\frac{1}{2}(x_2 + 2)^2+2\ln(2)=0\\ (-2 + \frac{1}{2})(x_1 - 3)^2-\frac{1}{2}(x_2 - 6)^2+\frac{1}{2}(x_2 + 2)^2+2\ln(2)=0\\ -\frac{3}{2}(x_1 - 3)^2+8x_2-16+2\ln2=0 \]

所以，此例子的决策面方程为$x2=3.514-1.125x_1+0.1875x_1^2$。

分类错误率

最小错误率贝叶斯决策

样本$x$的错误率：任一决策都可能会有错误。 \[ P(\text{error}|\mathbf{x})=\begin{cases} P(w_2|\mathbf{x}), & \text{if we decide } \mathbf{x} \text{ as } w_1\\ P(w_1|\mathbf{x}), & \text{if we decide } \mathbf{x} \text{ as } w_2 \end{cases} \] $P(w_2|x)$即：当我们将样本$x$判定为第一类$w_1$时，这个判定失误的概率为$P(w_2|x)$；（因为样本以该概率属于第二类）

样本$x$的最小错误率： \[ P(\text{error}|\mathbf{x})=\min(P(\omega_1|\mathbf{x}),P(\omega_2|\mathbf{x})) \] 贝叶斯决策的错误率：贝叶斯决策的错误率定义为所有服从独立同分布的样本上的错误率的期望： \[ P(\text{error})=\int P(\text{error}|\mathbf{x})p(\mathbf{x})dx \]

例：错误率(1D)

关于错误率，以一维为例说明：考虑一个有关一维样本的两类分类问题。假设决策边界$t$将$x$轴分成两个区域$R_1$和$R_2$。$R_1$为$(-\infty,t)$，$R_2$为$(t,\infty)$。

错误情形：样本在$R_1$中，但属于第二类的概率是存在的，即$P(w_2|\mathbf{x})$；样本在$R_2$中，但属于第一类的概率也是存在的，即$P(w_1|\mathbf{x})$；这两种情形就是决策一个给定样本$x$可能出现错误的概率。

考虑样本自身的分布后的平均错误率计算如下：
\[ \begin{align}P(\text{error})&=\int_{-\infty}^{t}P(w_2|\mathbf{x})p(\mathbf{x})d\mathbf{x}+\int_{t}^{\infty}P(w_1|x)p(\mathbf{x})d\mathbf{x}\\ &=\int_{-\infty}^{t}P(\mathbf{x}|w_2)P(w_2)d\mathbf{x}+\int_{t}^{\infty}\\ &= P(\mathbf{x}\in R_1,w_2)+P(\mathbf{x}\in R_2,w_1) \end{align} \]

两类情形

平均错分概率：
\[ P(\text{error})=P(\mathbf{x}\in R_2,w_1)+P(\mathbf{x}\in R_1,w_2)\\ =\int_{R_2}p(\mathbf{x}|w_1)P(w_1)d\mathbf{x}+\int_{R_1}p(\mathbf{x}|w_2)P(w_2)d\mathbf{x}\\ =P(\mathbf{x}\in R_2|w_1)P(w_1)+P(\mathbf{x}\in R_1|w_2)P(w_2) \]

例子

平均错分概率： \[ P(\text{error})=\int_{R_2}p(\mathbf{x}|w_1)P(w_1)d\mathbf{x}+\int_{R_1}p(\mathbf{x}|w_2)P(w_2)d\mathbf{x} \]

多类情形

平均错分概率：
\[ P(\text{error})=\sum_{i = 1}^{c}\sum_{j\neq i}P(x\in R_j,w_i) \] 平均分类精度：
\[ \begin{align} P(\text{correct})&=\sum_{i = 1}^{c}P(\mathbf{x}\in R_i,w_i)\\ & =\sum_{i = 1}^{c}P(\mathbf{x}\in R_i|w_i)P(w_i)\\ & =\int_{R_i}p(\mathbf{x}|w_i)P(w_i)d\mathbf{x} \end{align} \]

离散变量bayes决策

概率分布函数: $P(\mathbf{x}|w_i)=P(\mathbf{x}_1,\mathbf{x}_2,\dots,\mathbf{x}_d|w_i)$

独立二值特征 (Binary features)

特征独立假设（Naïve Bayes）: \[ P(\mathbf{x}|\omega_j)=P(x_1,x_2,\ldots,x_d|\omega_j)=\prod_{j = 1}^{d}P(x_j|\omega_j) \]

每维特征服从伯努利分布（0/1分布）

在类别 $w_1$ 下，第 $i$ 个特征 $x_i$ 取值为 1 的概率	在类别 $w_2$ 下，第 $i$ 个特征 $x_i$ 取值为 1 的概率
$p_i = P(X_{i}=1\|w_1),\quad i = 1,\ldots,d$	$q_i = P(X_{i}=1\|w_2),\quad i = 1,\ldots,d$
$P(\mathbf{x}\|w_1)=\prod_{i = 1}^{d}p_i^{x_i}(1 - p_i)^{1 - x_i}$	$P(\mathbf{x}\|w_2)=\prod_{i = 1}^{d}q_i^{x_i}(1 - q_i)^{1 - x_i}$

似然比: \[ \frac{P(\mathbf{x}|\omega_1)}{P(\mathbf{x}|\omega_2)}=\prod_{i = 1}^{d}\left(\frac{p_i}{q_i}\right)^{x_i}\left(\frac{1 - p_i}{1 - q_i}\right)^{1 - x_i} \] 判别函数(QDF): \[ \begin{align} g(\mathbf{x}) &= g_1(\mathbf{x})-g_2(\mathbf{x})=\ln P(\mathbf{x}|w_1)P(w_1)-\ln P(\mathbf{x}|w_2)P(w_2)\\ &=\sum_{i = 1}^{d}\left[x_i\ln\frac{p_i}{q_i}+(1 - x_i)\ln\frac{1 - p_i}{1 - q_i}\right]+\ln\frac{P(w_1)}{P(w_2)}\\ &=\sum^d_{i=1}\ln\frac{p_i}{q_i}\frac{1-q_i}{1-p_i}\mathbf x_i+\sum^d_{i=1}\ln\frac{1-p_i}{1-q_i}+\ln\frac{P(w_1)}{P(w_2)}\\ &=\sum_{i = 1}^{d}w_i x_i+w_0\\ &\begin{cases} w_i&=\ln\frac{p_i(1 - q_i)}{q_i(1 - p_i)},\quad i = 1,\ldots,d\\ w_0&=\sum_{i = 1}^{d}\ln\frac{1 - p_i}{1 - q_i}+\ln\frac{P(w_1)}{P(w_2)} \end{cases} \end{align} \]

例子$\times 1$

例子是基于朴素贝叶斯分类器的二分类问题，并利用独立二值特征（Binary Features）推导出分类的决策边界 $g(x)=0$ 的过程。

已知： \[ P(\omega_1)=0.5, P(\omega_2)=0.5\\ p_i = 0.8, q_i = 0.5,\quad i = 1,2,3 \]

\[ P(\mathbf{x}|\omega_1)=\prod_{i = 1}^{3}p_i^{x_i}(1 - p_i)^{1 - x_i}\\ P(\mathbf{x}|\omega_2)=\prod_{i = 1}^{3}q_i^{x_i}(1 - q_i)^{1 - x_i}\\ g(\mathbf{x})=\sum_{i = 1}^{3}w_i x_i+w_0\\ w_i=\ln\frac{0.8(1 -0.5)}{0.5(1 -0.8)} =\ln4= 1.3863\\ w_0=\sum_{i = 1}^{3}\ln\frac{1 -0.8}{1 -0.5}+\ln\frac{0.5}{0.5}=3\ln\frac{2}{5}=- 2.7489 \]

例子$\times 2$

3D binary data - $P(w_1)=0.5, P(w_2)=0.5$ - \[ p_1 = p_2 = 0.8, p_3 = 0.5; q_i = 0.5,\quad i = 1,2,3\\ w_i=\ln\frac{0.8(1 -0.5)}{0.5(1 -0.8)} =\ln4= 1.3863,\ i=1,2\\ w_3 = 0,\ i=3\\w_0 = 2\ln\frac{1 -0.8}{1 -0.5}=- 1.8326 \]

复合模式分类（Compound Bayesian Decision Theory and Context）

多个样本同时分类$\mathbf{X}=[x_1,x_2,\ldots,x_n]\quad w=w(1)w(2)\cdots w(n)$

比如：字符串识别

贝叶斯决策： \[ P(w|\mathbf{X})=\frac{p(\mathbf{X}|w)P(w)}{p(\mathbf{X})} = \frac{P(\mathbf{X} | w) P(w)}{\sum_{w'} P(\mathbf{X} | w') P(w')} \] 其中：

$P(w | \mathbf{X})$ 是后验概率，即给定样本序列 $\mathbf{X}$，其属于类别 $w$ 的概率。
$P(\mathbf{X} | w)$ 是类别 $w$ 下样本序列 $\mathbf{X}$ 的条件概率（似然）。
$P(w)$ 是类别$w $的先验概率。
$P() $是归一化项，用于保证所有类别的后验概率之和为 1。

注意：$w$类别数巨大$(c^n)$，$p(\mathbf{X}|w)$存储和估计困难.

选择后验概率最大的类别： \[ w^* = \arg\max_{w} P(w | \mathbf{X}) \]

条件独立：在已知类别条件下，样本之间相互独立，即： \[ P(\mathbf{X} | w) = \prod_{i=1}^n P(x_i | w) \] 这种假设极大地简化了 $P(\mathbf{X} | w)$ 的计算，但可能会损失精度，因为在实际问题中，序列中的样本通常是相关的（例如时间序列或字符序列）。

先验假设（Prior assumption）

马尔可夫链（Markov chain）
- 先验概率可以表示为： \[ P(w)=P[w(1),w(2),\ldots,w(n)]=P[w(1)]\prod_{j = 2}^{n}P[w(j)|w(j - 1)] \]
隐马尔可夫模型（Hidden Markov model，第 3 章介绍） \[ P(\mathbf{X}, w) = P(w(1)) \prod_{j=2}^n P(w(j) | w(j-1)) \prod_{i=1}^n P(x_i | w(i)) \]

与复合模式识别类似的问题：多分类器融合

有同一个分类问题的$K$个分类器，对于样本$x$，怎样使用$K$个分类结果得到最终分类结果？

一个分类器的输出：离散变量$e_k\in\{w_1,\dots,w_c\}$

多个分类器的决策当作样本$x$的多维特征，用Bayes方法重新分类: \[ P(w_i|e_1,\ldots,e_K)=\frac{P(e_1,\ldots,e_K|w_i)P(w_i)}{P(e_1,\ldots,e_K)},\quad i = 1,\ldots,c \] 需要估计离散空间的类条件概率 :指数级复杂度，需要大量样本 \[ P(e_1,\ldots,e_K|w_i) \] 特征独立假设（Naïve Bayes） \[ P(e_1,\ldots,e_K|w_i)=\prod_{k = 1}^{K}P(e_k|w_i) \]

总结

在已知类条件概率密度$p(\mathbf{x}|w_j)$和类先验分布$P(w_j)$的情况下，如何基于贝叶斯决策理论对样本$\mathbf{x}$分类的问题

单模式分类：连续特征、离散特征
复合模式分类
多分类器融合

贝叶斯分类器(基于贝叶斯决策的分类器)是最优的吗？

贝叶斯分类器是基于贝叶斯决策理论的分类器，其目标是最小化分类的总体风险（即误分类风险）。
- 最小风险：通过最小化条件风险（如 0-1 损失），选择最优分类。
- 最大后验概率决策：在每个样本点 $\mathbf{x}$，选择后验概率最大的类别。
最优的条件：概率密度$p(\mathbf{x}|w_i)$和先验概率$P(w_i)$、风险能准确估计
具体的参数法（如正态分布假设）、非参数法（如 Parzen 窗、核密度估计）是贝叶斯分类器的近似，实际中难以达到最优。
判别模型（如逻辑回归、支持向量机 SVM）：回避了概率密度估计，以较小复杂度估计后验概率$P(w_i|\mathbf{x})$或判别函数$g(\mathbf{x})$。
什么方法能胜过贝叶斯分类器：在不同的特征空间才有可能。

Q1: 贝叶斯分类器（基于贝叶斯决策的分类器）是最优的吗？

理论上：是的，贝叶斯分类器在理论上是最优的分类器，因为它最小化了分类风险。

实际中：不一定，因为贝叶斯分类器依赖于概率密度函数的精确估计，而实际中往往难以精确估计这些密度函数，特别是当数据分布复杂或高维时。

Q2: 什么方法能胜过贝叶斯分类器？

判别模型，如逻辑回归、SVM、神经网络等，特别是在以下情况下可能胜过贝叶斯分类器：

数据的真实分布复杂，难以准确建模。

特征空间高维，生成模型对概率估计的难度更大。

数据量有限时，生成模型容易过拟合。

先验概率相等\(P(w_i)=P(w_j)\)	先验概率不等\(P(w_i)\neq P(w_j)\)
\(\mathbf{w}=\boldsymbol{\mu}_i - \boldsymbol{\mu}_j\)	\(\mathbf{w}=\boldsymbol{\mu}_i - \boldsymbol{\mu}_j\)
\(\mathbf{x}_0=\frac{1}{2}(\boldsymbol{\mu}_i+\boldsymbol{\mu}_j)\)	\(\begin{align}\mathbf{x}_0&=\frac{1}{2}(\boldsymbol{\mu}_i+\boldsymbol{\mu}_j)-\frac{\sigma^2}{\\|\boldsymbol{\mu}_i - \boldsymbol{\mu}_j\\|^2}\ln\left(\frac{P(w_i)}{P(w_j)}\right)(\boldsymbol{\mu}_i - \boldsymbol{\mu}_j)\\&=\frac{1}{2}(\boldsymbol{\mu}_i+\boldsymbol{\mu}_j)-s_{ij}(\boldsymbol{\mu}_i - \boldsymbol{\mu}_j)\end{align}\)

先验概率相等\(P(w_i)=P(w_j)\)	先验概率不相等\(P(w_i)\neq P(w_j)\)
\(\mathbf{w}=\boldsymbol{\Sigma}^{-1}(\boldsymbol{\mu}_i-\boldsymbol{\mu}_j)\)	\(\mathbf{w}=\boldsymbol{\Sigma}^{-1}(\boldsymbol{\mu}_i-\boldsymbol{\mu}_j)\)
\(\mathbf{x}_0=\frac{1}{2}(\boldsymbol{\mu}_i+\boldsymbol{\mu}_j)\)	\(\begin{align}\mathbf{x}_0&=\frac{1}{2}(\boldsymbol{\mu}_i+\boldsymbol{\mu}_j)-\frac{\sigma^2}{\\|\boldsymbol{\mu}_i-\boldsymbol{\mu}_j\\|^2}\ln\left(\frac{P(w_i)}{P(w_j)}\right)(\boldsymbol{\mu}_i-\boldsymbol{\mu}_j)\\&=\frac{1}{2}(\boldsymbol{\mu}_i+\boldsymbol{\mu}_j)-s_{ij}(\boldsymbol{\mu}_i-\boldsymbol{\mu}_j) \end{align}\)

在类别 \(w_1\) 下，第 \(i\) 个特征 \(x_i\) 取值为 1 的概率	在类别 \(w_2\) 下，第 \(i\) 个特征 \(x_i\) 取值为 1 的概率
\(p_i = P(X_{i}=1\|w_1),\quad i = 1,\ldots,d\)	\(q_i = P(X_{i}=1\|w_2),\quad i = 1,\ldots,d\)
\(P(\mathbf{x}\|w_1)=\prod_{i = 1}^{d}p_i^{x_i}(1 - p_i)^{1 - x_i}\)	\(P(\mathbf{x}\|w_2)=\prod_{i = 1}^{d}q_i^{x_i}(1 - q_i)^{1 - x_i}\)

已知	公式表达
类别	\(w_i,\quad i=1,\dots,c\)
特征向量	\(\mathbf{x}=[x_1,\dots,x_d]\in\mathbb{R^d}\)
先验概率	\(P(w_i),\quad \sum^c_{i=1}P(w_i)=1\)
条件概率/PDF	\(p(\mathbf{x}\|w_i)\)

-	期望风险\(R(\alpha)\)	条件风险\(R(\alpha_i\|\mathbf{x})\)
	反映对整个特征空间上所有样本所采取的相应决策所带来的平均风险.	只反映对样本\(\mathbf{x}\)采取决策\(\alpha_i\)所带来的风险.
区别	理论推导	实际操作
决策规则	最小化期望风险\(\min_aR(a)\)	在各中决策中选择风险最小的决策\(a=\arg\min_{j=1,\dots,a}R(\alpha_j\|\mathbf{x})\)

已知	公式
类别	\(w_i, i = 1, \ldots, c\)
先验概率	\(\sum_{i = 1}^{c} P(w_i) \leq 1\)
后验概率	\(\sum_{i = 1}^{c} P(w_i\|\mathbf{x})\le 1,\ \sum^{c+1}_{j=0}P(w_i\|\mathbf{x})=1\)
条件概率密度	\(p(\mathbf{x} \|w_i), (i = 1, \ldots, c)\\ p(\mathbf{x} \|w_{c + 1}) =?\)

	单变量正态分布	多元正态分布
	\(x \sim N(\mu, \sigma^2)\)	\(\mathbf{x} \sim N_p(\boldsymbol{\mu}, \boldsymbol{\Sigma})\)
密度函数	$p(x) = ( - ( )^2 ) $	\(p(\mathbf{x}) = \frac{1}{(2\pi)^{d/2} \\|\boldsymbol{\Sigma}\|^{1/2}} \exp \left( - \frac{1}{2} (\mathbf{x} - \boldsymbol{\mu})^T \boldsymbol{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu}) \right)\)
均值	$= E{x} = _{-}^{+} x p(x) d $	\(\mu_i = E\{x_i\} = \int_{-\infty}^{+\infty} \cdots \int_{-\infty}^{+\infty} x_i p(\mathbf{x}) d\mathbf{x}_1 d\mathbf{x}_2 \cdots d\mathbf{x}_d\\\boldsymbol{\mu} = E\{\mathbf{x}\} \in \mathbb{R}^d\)
方差	$^2 = _{-}^{+} (x - )^2 p(x) d $	\(\boldsymbol{\Sigma} = E\{(\mathbf{x} - \boldsymbol{\mu})(\mathbf{x} - \boldsymbol{\mu})^T\} = \begin{bmatrix} \sigma_{11}^2 & \sigma_{12}^2 & \cdots & \sigma_{1d}^2 \\ \sigma_{12}^2 & \sigma_{22}^2 & \cdots & \sigma_{2d}^2 \\ \vdots & \vdots & \ddots & \vdots \\ \sigma_{1d}^2 & \sigma_{2d}^2 & \cdots & \sigma_{dd}^2 \end{bmatrix}\)
性质	$p(x) ,-< x < +,\_{-}^{+} p(x) d = 1 $	\(p(x_i) = \int_{-\infty}^{+\infty} \cdots \int_{-\infty}^{+\infty} p(\mathbf{x}) d\mathbf{x}_1 d\mathbf{x}_2 \cdots d\mathbf{x}_{i - 1} d\mathbf{x}_{i + 1} \cdots d\mathbf{x}_d\)

模式识别-Ch2-贝叶斯决策

Ch2 贝叶斯决策(Bayesian Decision Theory)

最小错误率bayes决策

最小风险bayes决策

c=2且无拒识

例: 最小风险bayes决策

条件风险是0-1损失

c=c+1且带拒识

开放集分类bayes决策

分类器设计

判别函数

c=2情形下的判别函数

决策面

c=2情形下的决策面方程

分类器设计

高斯密度下的判别函数

高斯分布

等密度轨迹

性质

最小错误率贝叶斯决策

第一种情形：\(\boldsymbol{\Sigma}_i=\sigma^2\mathbf{I}, \quad i = 1,2,\ldots,c\)

先验概率相等：\(P(w_i)=P(w_j)\)

先验概率不相等：\(P(w_i)\neq P(w_j)\)

决策规则： 若\(g_k(\mathbf{x})=\max_{i}g_i(\mathbf{x})\)，则\(\mathbf{x}\in w_k\)

第二种情形：\(\boldsymbol{\Sigma}_i=\boldsymbol{\Sigma}, \quad i = 1,2,\ldots,c\)

先验概率相等：\(P(w_i)=P(w_j)\)

先验概率不相等：\(P(w_i)\neq P(w_j)\)

决策面方程：\(g_i(\mathbf{x})-g_j(\mathbf{x})=0\)

第三种情形：\(\boldsymbol{\Sigma}_i\neq\boldsymbol{\Sigma}_j, \quad i,j = 1,2,\ldots,c\)

例子: c=2, 2D

分类错误率

最小错误率贝叶斯决策

例：错误率(1D)

两类情形

例子

多类情形

离散变量bayes决策

独立二值特征 (Binary features)

例子\(\times 1\)

例子\(\times 2\)

复合模式分类（Compound Bayesian Decision Theory and Context）

总结

贝叶斯分类器(基于贝叶斯决策的分类器)是最优的吗？

决策规则：若\(g_k(\mathbf{x})=\max_{i}g_i(\mathbf{x})\)，则\(\mathbf{x}\in w_k\)