###Huffman Compression - 霍夫曼压缩 主要思想:放弃文本文件的普通保存方式:再也不使用7位或8位二进制数表示每个字符,而是用较少的比特表示出现频率最高的字符,用较多的比特表示出现频率低的字符。算法
使用变长编码来表示字符串,势必会致使编解码时码字的惟一性问题,所以须要一种编解码方式惟一的前缀码,而表示前缀码的一种简单方式就是使用单词查找树,其中最优前缀码即为Huffman独创。编码
以符号F, O, R, G, E, T为例,其出现的频次如如下表格所示。图片
Symbol F O R G E T Frequence 2 3 4 4 5 7 Code 000 001 100 101 01 10 则对各符号进行霍夫曼编码的动态演示以下图所示。基本步骤是将出现频率由小到大排列,组成子树后频率相加做为总体再和其余未加入二叉树中的节点频率比较。加权路径长为节点的频率乘以树的深度。字符串
有关霍夫曼编码的具体步骤可参考 Huffman 编码压缩算法 | 酷 壳 - CoolShell.cn 和 霍夫曼编码 - 维基百科,自由的百科全书,清晰易懂。it