X(1)的取值为{1,2,3},X(2)的取值为{S,M,L}
通过这两个特征得到预测结果Y={-1,1} 若这两个特征不独立,则需要计算18个参数。P(X(1)=1,X(2)=S|Y=-1), P(X(1)=1,X(2)=S|Y=1)
P(X(1)=1,X(2)=M|Y=-1), P(X(1)=1,X(2)=M|Y=1)
P(X(1)=1,X(2)=L|Y=-1), P(X(1)=1,X(2)=L|Y=1)
P(X(1)=2,X(2)=S|Y=-1), P(X(1)=2,X(2)=S|Y=1)
P(X(1)=2,X(2)=M|Y=-1), P(X(1)=2,X(2)=M|Y=1)
P(X(1)=2,X(2)=L|Y=-1), P(X(1)=2,X(2)=L|Y=1)
P(X(1)=3,X(2)=S|Y=-1), P(X(1)=3,X(2)=S|Y=1)
P(X(1)=3,X(2)=M|Y=-1), P(X(1)=3,X(2)=M|Y=1)
P(X(1)=3,X(2)=L|Y=-1), P(X(1)=3,X(2)=L|Y=1)
若Y的可取值为K个,每个特征可取值为Sj个,则参数有 K ⋅ ∏ j = 1 n S j { Kcdot prod_{j=1}^{n} S_{j} } K⋅∏j=1nSj个。
若独立,则只需要计算12个参数。P(X(1)=1|Y=-1), P(X(1)=1|Y=1),
P(X(1)=2|Y=-1), P(X(1)=2|Y=1),
P(X(1)=3|Y=-1), P(X(1)=3|Y=1),
P(X(2)=S|Y=-1), P(X(2)=S|Y=1),
P(X(2)=M|Y=-1), P(X(2)=M|Y=1),
P(X(2)=L|Y=-1), P(X(2)=L|Y=1),
即若Y的可取值为K个,每个特征可取值为Sj个,则参数有 K ⋅ ∑ j = 1 n S j { Kcdot sum_{j=1}^{n} S_{j} } K⋅∑j=1nSj个。
综上,若假特征属性独立则可减少参数计算量!



