- 信息熵:某件事情发生的不确定性度,-plog2(p),信息熵越大,不确定性越大
- 类别信息熵:类别信息熵表示的是所有样本中各种类别出现的不确定性之和,公式:label_info = -p1log2(p1)-p2log2(p2)-p3log2(p3),(p1+p2+p3=1)
- 属性信息熵:每个属性的信息熵相当于一种条件熵。他表示的是在某种属性的条件下,各种类别出现的不确定性之和。属性的信息熵越大,表示这个属性中拥有的样本类别越不“纯”。公示:p1*label_info_onp1 + p2*label_info_onp2,p1、p2表示其中一个属性两种情况概率,label_info_onp1、label_info_onp2分别表示两种情况的条件下各自的类别信息熵。例子:
讲得非常好:K-Means聚类算法原理 - 刘建平Pinard - 博客园
-SVM(分类/回归)支持向量机(SVM)——原理篇 - 知乎
-Apriori(关联) -EM(期望最大化) -PageRank(排序)-AdaBoost(分类/回归)
-K-nearest neighbor(分类)
-Bayesian classification(分类)
-CART - Classification and Regression Tree(分类/回归)



