朴素贝叶斯法(二)——基本方法-白红宇

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法

基本方法

总论

朴素贝叶斯法是典型的生成学习方法。生成方法由训练数据学习联合概率分布P(X,Y)，然后得到后验概率P(Y|X)。即：

一）利用训练数据得到P(X|Y)和P(Y)的估计

二）根据公式P(X,Y)=P(Y)P(X|Y)得到P(X,Y)

三）根据公式P(Y|X)=得到 P(Y|X)

展开

假设

输入空间χ⊆Rⁿ为n维向量的集合

输出空间为类标记集合У={c₁,c₂,…c_K}

输入为特征向量x∈χ

输出为类标记y∈У

X是定义在输入空间χ上的随机变量

Y是定义在输出空间У上的随机变量

训练数据集为T={(x₁,x₂),(x₂,y₂),…(x_N,y_N)}

特征的总个数为n

每一个特征的可能取值为S_j

训练数据的总个数为N

类标记个数为K

推导

一）通过训练数据得到

1. 先验概率P(Y=c_k), k=1,2,…K

2. 条件概率分布P(X=x|Y=c_k)=P(X⁽¹⁾=x⁽¹⁾,…X⁽ⁿ⁾=x⁽ⁿ⁾|Y=c_k)

朴素贝叶斯法的基本假设为条件独立性，即用于分类的特征在类确定的条件下都是条件独立的。所以

P(X=x|Y=c_k)=P(X⁽¹⁾=x⁽¹⁾,…X⁽ⁿ⁾=x⁽ⁿ⁾|Y=c_k)

= P(X^(j)=x^(j) |Y=c_k)

对于参数P(Y=c_k)、P(X^(j^）=x|Y=c_k)的估计可以是几大似然估计也可以是贝叶斯估计。

极大似然估计

P(Y=c_k)=

设第j个特征x(j)可能的取值为｛a_j1,a_j2,…a_jsj｝个数为S_j个

P(X^(j)=x_jl|Y=c_k)=

贝叶斯估计

用几大似然估计可能会出现所要估计的概率值为0的情况，这时候影响到后验概率的计算结果，使分类产生偏差。解决这一问题的方法是采用贝叶斯估计的方法估计。此时条件概率的贝叶斯估计为

P (X^(j)=x_jl|Y=c_k)=

等价于在随机变量的各个取值的频数上加上一个正数。当时为极大似然估计，常去，此时成为拉普拉斯平滑。显然有

P (X^(j)=x_jl|Y=c_k)>0

P (X^(j)=x_jl|Y=c_k) = 1

同样P(Y=c_k)=

二）根据公式P(X,Y)=P(Y)P(X|Y)得到P(X,Y)

三）根据公式P(Y|X)=得到 P(Y|X)

P(X)=

P(Y|X)= =P(Y=c_k)P(X^(j)=x^(j) |Y=c_k) /

可以看出此时分母是一样的，所以，

y=arg P(Y=c_k)P(X^(j)=x^(j) |Y=c_k)

后验概率最大化的含义

y=arg P(Y=c_k)P(X^(j)=x^(j) |Y=c_k)

等价式是取得最大值，原因是：朴素贝叶斯法将实例分到后验概率最大的类中，这等价于期望风险最小化。后验概率最大等价于0-1损失函数的期望风险最小化。

假设选择0-1损失函数：

L(Y,f(X)) = ，f(X)是分类决策函数

此时，期望风险函数为

R_exp(f) = E[L(Y,f(X))]

=Ex)

可以看出是取条件期望，设

f(x)=

（0-1损失函数，相等的为0）

=argmaxP(y=ck|X=x)

这样一来，风险最小化准则得到后验概率最大化准则：

f(x)=argmaxP(c_k|X=x)

本文转自jihite博客园博客，原文链接：http://www.cnblogs.com/kaituorensheng/p/3379478.html，如需转载请自行联系原作者