熵編碼法

Also known as entropy encoding

lossless data compression scheme that is independent of the specific characteristics of the medium

Article · 中文

熵編碼法是一种独立于介质的具体特征的进行无损数据压缩的方案。一种主要类型的熵编码方式是对输入的每一个符号，创建并分配一个唯一的前缀码，然后，通过将每个固定长度的输入符号替换成相应的可变长度前缀无关（prefix-free）输出码字替换，从而达到压缩数据的目的。每个码字的长度近似与概率的负对数成比例。因此，最常见的符号使用最短的码。根据香农的信源编码定理，一个符号的最佳码长是 −logbP，其中 b 是用来输出的码的数目，P 是输入符号出现的概率。霍夫曼编码和算术编码是两种最常见的熵编码技术。如果预先已知数据流的近似熵特性（尤其是对于信号压缩），可以使用简单的静态码。这些静态码，包括通用密码（如Elias gamma coding或斐波那契编码）和哥伦布编码（比如或Rice编码）。一般熵編碼器与其它编码器联合使用。比如LHA首先使用LZ编码，然后将其结果进行熵編碼。Zip和Bzip的最后一级编码也是熵編碼。

Abstract from DBpedia / Wikipedia · CC BY-SA