基于字典的压缩算法LZ77探讨--688IT编程网

基于字典的压缩算法LZ77探讨

（一）算法的基本思路

基于字典压缩的基本思想十分简单，很容易理解：我们经常说“世贸”，“CPU”等词，大家都明白这指的是“世界贸易组织”，“中央处理器”，其实这已顺利完成了信息压缩与解压的过程：说的人和听的人头脑中都有一本相同的缩略语字典，说（压缩）和听（解缩）的过程中都对字典进行查询操作，从而实现现压缩和解压。

再看一个例子。假如我们手上有一本英语词典，要对以下一段话进行压缩：dictionary methods are both simple and popular.输出的编码如下：

101.2 388.4 4.6 50.11 470.9 3.8 411.13

编码的意义是第一部分表示词典的页码，第二部分表示该单词是该页中的第几个，如101.2表示dictionary这个单词是第101页的第2个单词。所以这种方法的基本思想就是：有一本压缩者和解压者共同的词典，对要压缩的一段文本进行扫描，对其中的句子进行分词操作，得到的每一个独立的词语，在词典中查它的位置，并输出页码和该词在该页中的序号。解压过程更简单，只要在指定的词典位置查出该词就是了。

这种方法是否真能达到压缩效果呢？看回上面的例子，假设词典共有500页，每页不超过128个单词，则页

码可以用9位二进制位编码，页内序号可以用

7位二进制位编码，每个单词一共用16位编码。上面这段话的编码长度是16×7＝112位二进制位。而还没压缩前，每个单词的ASCII码8位，例子中的那段话一共要用8×46＝368位二进制位。

（二）自适应模型胜于静态模型

字典模型有两种：静态和自适应。在静态字典模型中，字典在压缩开始之前就已经建立，并且不会随着数据的压缩过程而改变。静态字典的优点是不需要

在压缩和解压过程中维护字典，因此压缩和解压的实现可以比较简单。但是，静态字典模型用得很少，因为它存在不少缺点。首先，静态模型的适应性不强，必须为每类不同的信息建立不同的字典，为某类信息建立了字典后，该字典通常不能被其它类型的信息重用；其次，静态模型必须维护信息量并不算小的字典，并且必须解决如何将字典从编码程序传递到解码程序的问题，这一额外的信息量可能会严重影响压缩效果，特别对于小文本。所以目前静态模型只用于特殊目的、独立实现的应用，并不是通用的。

LZ77应用自适应字典模型。自适应模型在压缩前不预先建立字典，而是在压缩过程中建立和维护字典，也就是说，将已经编码过的信息作为字典，如果要编码的字符串曾经出现过，就输出该字符串的出现位置及长度，否则输出新的字符串。过程描述如下：

While (文本还没扫描结束) {

Word = read_word ( ) ;

Look_up ( word, dictionary );

If ( 到匹配短语) {

Output ( word ) ;

Add_to_dictionary ( word );

}else Output ( word _position );

}

（三）算法描述——滑动的窗口

LZ77压缩可以称为滑动窗口压缩，因为它用到的主要数据结构是一个可以滑动的窗口。窗口分成两部分：第一部分是历史窗口（history window），存放最近被编码的一段正文；另一部分是向前看窗口（lookahead window），存放从输入文件中读入，还没编码但正准备编码的一段正文。历史窗口和向前

看窗口都跟随压缩进程滑动，历史窗口作为术语字典，向前看窗口中待压缩的字符串如果在该历史窗口中出现，则输出其出现位置和长度。窗口如下图所示：

| History | lookahead

xxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxx

sliding window

为什么使用固定大小窗口作为字典，而不把所有已经编码的信息作为字典呢？主要基于以下三点考虑：一，匹配算法的时间消耗是不容忽视的，如果字典过于庞大，压缩的速度会变得很慢，必须限制窗口的大小；二，窗口越大，表示匹配串在窗口中的位置的编码所需的位数就会越多，必须选取合适的窗口大小，才能保证算法的压缩效率；三，研究表明，对大多数信息而言，要编码的字符串在最近的上下文中到匹配串的概率比较大，所以随着压缩的进程滑动字典窗口，使其中总包含最近编码过的信息。

| History | lookahead

算法输出三个标记的序列：（1）匹配短语在窗口中的偏移量（off）；（2）匹配短语的长度（len）；（3）向前看窗口中跟在匹配短语后面的第一个符号。用一个三元组（off，len，c）表示以上信息。如上图所示。基本流程如下：从lookahead 开始，考察未编码的数据，遍历历史窗口，尝试在历史窗口中查出最长的匹配字符串；如果到，输出三元符号组( off, len, c )；将整个窗口向后滑动len + 1 个字符。如果不到匹配串，输出三元符号组( 0, 0, c )。将整个窗口向后滑动1个字符。原始算法描述如下：

for ( i=0; i<max_match_len; i++) {

while ( current_ match_len <= max_match_len ){

字符串长度压缩if (window[ i++ ] == window[ lookahead_pointer++ ] )

current_ match_len ++;

else break;

}

if (current_ match_len > len ){

off = i ;

len = current_ match_len;

}

output ( off, len, c );

slide_window ( len+1 );

以一个例子来说明算法的具体流程。假如压缩过程中的历史窗口和向前看窗口的内容如下图所示（其中“_”表示空格）：

| History | lookahead

这个例子中，历史窗口的内容是”mother_thinks_Jack’s_brother_does_love”，等待压缩的内容是”_Jack’s_father…”，遍历history窗口，查lookahead所指内容的最长匹配串。如图所示，到的最长匹配串为”_Jack’s_”，匹配串在窗口中的偏移off =13，匹配串长度len ＝8，”_Jack’s_”的下一个字符是”f ”，所以输出三元组（13，8，f）。接下来把整个窗口向后滑动8+1=9个字符。滑动窗口后内容如下所示：

| History | lookahead

mother_thinks_Jack’s_ brother_does_love_ Jack’s_father_xxxxxxxxxx

窗口向后滑动9个字符

LZ77的还原算法非常简单，不需要像压缩时那样，进行查匹配串的比较操作。它只需在解压过程中不断维护好像压缩时那样的滑动窗口，读入三元组，根据三元组给出的偏移off，匹配长度len，在窗口中到相应的匹配串，缀上后继字符，然后输出，即可解压出原始数据。就如上面的例子，读入三元组（13，8，f），根据它的意义，在窗口中偏移13处，读出长度为8的串，结果是”_Jack’s_”，然后缀上字符”f ”，输入”_Jack’s_f ”，这就是正确的解压结果。

（四） LZ77存在的问题——查匹配串形成性能瓶颈

从上面对LZ77算法的分析可以看到，该算法有一个对其压缩速度有很大影响的性能瓶颈，就是遍历滑动窗口，查待编码文本的最长匹配串。当进行编码时，lookahead窗口中的内容要与history窗口中的每个位置进行逐一比较，LZ77算法中的时间消耗主要集中在对最长匹配串的查上，可以说是算法的核心问题。我们可以粗鲁分析一下查算法的时间复杂度，假设窗口大小是n，平均匹配长度是m，则每次查的时间复杂度将达到O（m*n），而每次滑动窗口之后，都要进行下一个匹配串的查。

算法的这个速度性能瓶颈还会间接限制了压缩比的提高。因为，很明显，如果窗口越大，字典就越大，包含的“词汇量”就越丰富，到匹配串的可能性就越高，平均匹配长度也越长，从这个角度看，压缩效果当然就越好。一方面，增大窗口（字典）可以改进压缩的效果，但另一方面，算法的这个速度性能瓶颈就会更加严重，当窗口增大到一定程度，甚至会另速度下降到无法接受的程度。所以，查最长匹配串这个速度性能瓶颈间接限制了压缩比的提高。

很多通用压缩程序都采取了一些方案来改进LZ77的这个缺陷。其中应用得很多的一种是用二叉搜索树的数据结构来改进。方法是，先设定一个长度len，将窗口中每一个len长的串抽取出来，按照大小顺序组织成二叉搜索树。每次匹配串时在这棵二叉搜索树中进行字符串的查。树结点的结构定义如下：Struct {

Char[ len ] key; // 正文字符串

int off; // 这个串在窗口中的偏移

int left_child; // 左孩子

int right; // 右孩子

}

通过建立二叉搜索树的方法的确对查匹配串的速度有很多的提高。但这种方法主要有以下三个缺点：

1．需要耗费一定的空间去存储这棵二叉树结构。假设上面的len设定为30，窗口的大小window_size为4k，则树的结点有window_size－len＋1≈4k个，

688IT编程网

基于字典的压缩算法LZ77探讨

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

基于字典的压缩算法LZ77探讨

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式