贝叶斯后验概率
$P(y \mid x_1, \dots, x_n) = \frac{P(y) P(x_1, \dots, x_n \mid y)}
{P(x_1, \dots, x_n)}$
朴素贝叶斯
基于条件独立的假设可以简化为
$P(y \mid x_1, \dots, x_n) = \frac{P(y) \prod_{i=1}^{n} P(x_i \mid y)}
{P(x_1, \dots, x_n)}$
分母为常数,则
$\begin{align}\begin{aligned}P(y \mid x_1, \dots, x_n) \propto P(y) \prod_{i=1}^{n} P(x_i \mid y)\\\Downarrow\\\hat{y} = \arg\max_y P(y) \prod_{i=1}^{n} P(x_i \mid y),\end{aligned}\end{align}$
不同的贝叶斯算法的区别主要是在$P(x_i|y)$的计算上
常见贝叶斯算法
- 高斯朴素贝叶斯
$P(x_i \mid y) = \frac{1}{\sqrt{2\pi\sigma^2_y}} \exp\left(-\frac{(x_i - \mu_y)^2}{2\sigma^2_y}\right)$
- 多项式multinomial【文本处理使用较多】
每个类别的每个特征概率由右侧向量刻画:$\theta_y = (\theta_{y1},\ldots,\theta_{yn})$
$\hat{\theta}_{yi} = \frac{ N_{yi} + \alpha}{N_y + \alpha n}$,
其中
$N_{yi} = \sum_{x \in T} x_i$ :为$x_i$出现在yi(类别y的第i个特征位置)的样本中的数量
$ N_{y} = \sum_{i=1}^{n} N_{yi}$ :y类所有特征的总量
$\alpha$为平滑系数
两个基本假设
- 特征条件独立
- 特征等价
Reference