哈夫曼树的介绍

一、哈夫曼树的几个重要概念

1.路径和路径长度：在一颗树中，从一个节点往下可以到达的孩子或孙子节点之间的通路，称之为路径。

通路当中分支的数目称为路径的长度。

若规定根节点的层数为1，则从根节点到第L层节点的长度为 L-1.

2.节点的权：若树中节点赋给一个有着某种意义的数值，则这个数值称为这个节点的权。

3.带权路径长度 : 从根节点到该节点之间的路径长度与该节点的权的乘积

4.树的权路径长度：树的带权路径长度为所有叶子节点的带权路径长度之和，记为WPL,权值越大的节点离跟节点越近的二叉树是

最优二叉树

5.WPL最小的就是哈夫曼树

二、哈夫曼树的构建过程

1.将待构建哈夫曼树的节点从小到大进行排序，将每个数据都看作一个节点，每个节点都构建一颗简单的二叉树

2.取出根节点权值最小的两颗二叉树

3.组成一颗新的二叉树，该新的二叉树的根节点的权值是前两颗二叉树跟节点权值的和

4.在将这个二叉树，以根节点的权值大小再次进行排序，不断的重复1-2-3-4的步骤，直到数列种所有的数据都被处理，就得到了一颗哈夫曼树

三、数据压缩构建哈夫曼树的思路

第一步：传输字符串

i like like like java do you like a java //共40个字符

第二步：统计各个字符出现的次数

d:1 , y:1 , u:1 , j:2 , v:2 , o:2 , l:4 , k:4 , e:4 , i:5 , a:5 , :9

第三步：按照上面字符出现的次数构建一颗哈夫曼树，次数作为权值

第四步：根据赫夫曼编码给各个字符，规定编码，向左的路径为0向右的路径为1，编码如下o:1000 u:10010 d:100110 y:100111 i:101 a:110 k:1110 e:1111 j:0000 v:0001 i:001 :01

在这里我们会发现，每一个字符的编码都不会是另一个编码的前缀。比如 01,没有任何一个字符的编码前缀是01

第五步：按照上边的哈夫曼编码，我们的“i like like like java do you like a java”字符串对应的编码为

10101001101111011110100110111101111010011011110111101000011000011100110011110000110 01111000100100100110111101111011100100001100001110

分析：长度为： 133

说明:

原来长度是 359 , 压缩了 (359-133) / 359 = 62.9%

总结：

此编码满足前缀编码, 即字符的编码都不能是其他字符编码的前缀。不会造成匹配的多义性

赫夫曼编码是无损处理方案