机器学习中的数学——距离定义（二十九）：点间互信息（Pointwise Mutual Information, PMI）

分类目录：《机器学习中的数学》总目录
相关文章：
· 距离定义：基础知识
· 距离定义（一）：欧几里得距离（Euclidean Distance）
· 距离定义（二）：曼哈顿距离（Manhattan Distance）
· 距离定义（三）：闵可夫斯基距离（Minkowski Distance）
· 距离定义（四）：切比雪夫距离（Chebyshev Distance）
· 距离定义（五）：标准化的欧几里得距离（Standardized Euclidean Distance）
· 距离定义（六）：马氏距离（Mahalanobis Distance）
· 距离定义（七）：兰氏距离（Lance and Williams Distance）/堪培拉距离（Canberra Distance）
· 距离定义（八）：余弦距离（Cosine Distance）
· 距离定义（九）：测地距离（Geodesic Distance）
· 距离定义（十）：布雷柯蒂斯距离（Bray Curtis Distance）
· 距离定义（十一）：汉明距离（Hamming Distance）
· 距离定义（十二）：编辑距离（Edit Distance，Levenshtein Distance）
· 距离定义（十三）：杰卡德距离（Jaccard Distance）和杰卡德相似系数（Jaccard Similarity Coefficient）
· 距离定义（十四）：Ochiia系数（Ochiia Coefficient）
· 距离定义（十五）：Dice系数（Dice Coefficient）
· 距离定义（十六）：豪斯多夫距离（Hausdorff Distance）
· 距离定义（十七）：皮尔逊相关系数（Pearson Correlation）
· 距离定义（十八）：卡方距离（Chi-square Measure）
· 距离定义（十九）：交叉熵（Cross Entropy）
· 距离定义（二十）：相对熵（Relative Entropy）/KL散度（Kullback-Leibler Divergence）
· 距离定义（二十一）：JS散度（Jensen–Shannon Divergence）
· 距离定义（二十二）：海林格距离（Hellinger Distance）
· 距离定义（二十三）：α-散度（α-Divergence）
· 距离定义（二十四）：F-散度（F-Divergence）
· 距离定义（二十五）：布雷格曼散度（Bregman Divergence）
· 距离定义（二十六）：Wasserstein距离（Wasserstei Distance）/EM距离（Earth-Mover Distance）
· 距离定义（二十七）：巴氏距离（Bhattacharyya Distance）
· 距离定义（二十八）：最大均值差异（Maximum Mean Discrepancy, MMD）
· 距离定义（二十九）：点间互信息（Pointwise Mutual Information, PMI）

在机器学习实践中，经常会用到点间互信息（Pointwise Mutual Information, PMI）来衡量两个变量的相关性：
PMI ( x , y ) = log ⁡ p ( x , y ) p ( x ) p ( y ) = log ⁡ p ( x ∣ y ) p ( x ) = log ⁡ p ( y ∣ x ) p ( y ) text{PMI}(x, y)=log{frac{p(x, y)}{p(x)p(y)}=log{frac{p(x|y)}{p(x)}}}=log{frac{p(y|x)}{p(y)}} PMI(x,y)=logp(x)p(y)p(x,y)=logp(x)p(x∣y)=logp(y)p(y∣x)

若 x x x和 y y y不相关，则 p ( x , y ) = p ( x ) p ( y ) p(x,y)=p(x)p(y) p(x,y)=p(x)p(y)。二者相关性越大，则 p ( x , y ) p(x,y) p(x,y)就相比于 p ( x ) p ( y ) p(x)p(y) p(x)p(y)越大。同理，在 y y y出现的情况下 x x x出现的条件概率 p ( x ∣ y ) p(x|y) p(x∣y)除以 x x x本身出现的概率 p ( x ) p(x) p(x)，自然就表示 x x x跟 y y y的相关程度。

机器学习中的数学——距离定义（二十九）：点间互信息（Pointwise Mutual Information, PMI）

Python相关栏目本月热门文章