Search算法原理--688IT编程网

Search算法原理

由于查运算的使⽤频率很⾼，⼏乎在任何⼀个计算机系统软件和应⽤软件中都会涉及到，所以当问题所涉及的数据量相当⼤时，查⽅法的效率就显得格外重要。在⼀些实时查询系统中尤其如此。

查的基本概念

1、查表和查

⼀般，假定被查的对象是由⼀组结点组成的表(Table)或⽂件，⽽每个结点则由若⼲个数据项组成。并假设每个结点都有⼀个能惟⼀标识该结点的关键字。

查(Searching)的定义是：给定⼀个值K，在含有n个结点的表中出关键字等于给定值K的结点。若到，则查成功，返回该结点的信息或该结点在表中的位置；否则查失败，返回相关的指⽰信息。

2、查表的数据结构表⽰

（1）动态查表和静态查表

若在查的同时对表做修改操作(如插⼊和删除)，则相应的表称之为动态查表。否则称之为静态查表。

二叉树的基本性质

（2）内查和外查

和排序类似，查也有内查和外查之分。若整个查过程都在内存进⾏，则称之为内查；反之，若查过程中需要访问外存，则称之为外查。

3、平均查长度ASL

查运算的主要操作是关键字的⽐较，所以通常把查过程中对关键字需要执⾏的平均⽐较次数(也称为平均查长度)作为衡量⼀个查算法效率优劣的标准。

顺序查(Sequential Search)

在表的组织⽅式中，线性表是最简单的⼀种。顺序查是⼀种最简单的查⽅法。

1、顺序查的基本思想：从表的⼀端开始，顺序扫描线性表，依次将扫描到的结点关键宇和给定值K相⽐较；

2、顺序查的存储结构要求：顺序表、链表都可以；

3、数据操作：

查：O(n)

⼆分查

1、⼆分查(Binary Search)

　⼆分查⼜称折半查，它是⼀种效率较⾼的查⽅法。

　⼆分查要求：线性表是有序表，即表中结点按关键字有序，并且要⽤向量作为表的存储结构。不妨设有序表是递增有序的。

2、⼆分查的基本思想　

（1）⾸先确定该区间的中点位置：

（2）然后将待查的K值与R[mid].key⽐较：若相等，则查成功并返回此位置，否则须确定新的查区间，继续⼆分查；

因此，从初始的查区间]开始，每经过⼀次与当前查区间的中点位置上的结点关键字的⽐较，就可确定查是否成功，不成功则当前的查区间就缩⼩⼀半。

3、⼆分查判定树：⽤来描述⼆分查的过程。

4、算法复杂度：O(logN)

⼆分查失败时所需⽐较的关键字个数不超过判定树的深度，虽然⼆分查效率较⾼，但是其要求是线性表是有序表。

当⽤线性表作为表的组织形式时，以⼆分查效率最⾼。但由于⼆分查要求表中结点按关键字有序，且不能⽤链表作存储结构，因此，当表的插⼊或删除操作频繁时，为维护表的有序性，势必要移动表中很多结点。这种由移动结点引起的额外时间开销，就会抵消⼆分查的优点。也就是说，⼆分查只适⽤于静态查表。若要对动态查表进⾏⾼效率的查，可采⽤下⾯介绍的⼏种特殊的⼆叉树或树作为表的组织形式。不妨将它们统称为树表。下⾯将分别讨论在这些树表上进⾏查和修改操作的⽅法。

⼆叉排序树

1、⼆叉排序树的定义

⼆叉排序树(Binary Sort Tree)⼜称⼆叉查(搜索)树(Binary Search Tree)。其定义为：⼆叉排序树或者是空树，或者是满⾜如下性质的⼆叉树：

①若它的左⼦树⾮空，则左⼦树上所有结点的值均⼩于根结点的值；

②若它的右⼦树⾮空，则右⼦树上所有结点的值均⼤于根结点的值；

③左、右⼦树本⾝⼜各是⼀棵⼆叉排序树。

上述性质简称⼆叉排序树性质(BST性质)，故⼆叉排序树实际上是满⾜BST性质的⼆叉树。

2、数据操作：

查：最好情况：O(logN) 最坏情况：O(N)

插⼊、删除：O(logN)

虽然⼆叉排序树在查、插⼊、删除上有了较好的性能，但是其最坏情况下，这些数据操作的时间均会增加到O(n)，所以，需要“平衡”⼆叉排序树，使其避免最坏情况的发⽣。

平衡树

1、平衡⼆叉树⼜称AVL树。它或者是颗空树，或者是具有下列性质的⼆叉树：

①它的左⼦树和右⼦树都是平衡⼆叉树，

②左⼦树和右⼦树的深度之差的绝对值不超过1。

若将⼆叉树节点的平衡因⼦BF定义为该节点的左⼦树的深度减去它的右⼦树的深度，则平衡⼆叉树上所有节点的平衡因⼦只可能为-1,0,1.只要⼆叉树上有⼀个节点的平衡因⼦的绝对值⼤于1，那么这颗平衡⼆叉树就失去了平衡。

2、数据操作：

查：O(logN)

插⼊、删除： O(logN)

结点的调整⽅法：

LL型（右旋）、RR型（左旋）

LR型（双旋：左旋、右旋）、RL型（双旋：右旋、左旋）

红⿊树

红⿊树并不追求“完全平衡”——它只要求部分地达到平衡要求，降低了对旋转的要求，从⽽提⾼了性能。

红⿊树的5个性质：

每个结点要么是红的要么是⿊的。

根结点是⿊的。

如果⼀个结点是红的，那么它的两个⼉⼦都是⿊的。

对于任意结点⽽⾔，其到叶结点树尾端NIL指针的每条路径都包含相同数⽬的⿊结点。

每个叶结点（叶结点即指树尾端NIL指针或NULL结点）都是⿊的。

正是红⿊树的这5条性质，使⼀棵n个结点的红⿊树始终保持了logn的⾼度，从⽽也就解释了上⾯所说的“红⿊树的查、插⼊、删除的时间复杂度最坏为

O(log n)这⼀结论成⽴的原因。

散列表

散列⽅法不同于顺序查、⼆分查、⼆叉排序树及AVL树、红⿊树上的查。它不以关键字的⽐较为

基本操作，采⽤直接寻址技术。在理想情况下，⽆须任何⽐较就可以到待查关键字，查的期望时间为O(1)。

根据设定的散列函数h(key)和处理冲突的⽅法将⼀组关键字key映像到⼀个有限的连续的地址区间上，并以关键字在地址区间中的像作为数据元素在表中的存储位置，这种表便被称为散列表，这⼀映像过程称为散列，所得存储位置称为散列地址。

关键字、散列函数以及散列表的关系如下图所⽰：

1、散列函数

散列函数是从关键字到地址区间的映像。

好的散列函数能够使得关键字经过散列后得到⼀个随机的地址，以便使⼀组关键字的散列地址均匀地分布在整个地址区间中，从⽽减少冲突。

常⽤的构造散列函数的⽅法有：

（1）、直接定址法

取关键字或关键字的某个线性函数值为散列地址，即：

h(key) = key 或 h(key) = a * key + b

其中a和b为常数。

（2）、数字分析法

（3）、平⽅取值法：取关键字平⽅后的中间⼏位为散列地址。

（4）、折叠法

将关键字分割成位数相同的⼏部分（最后⼀部分的位数可以不同），然后取这⼏部分的叠加和（舍去进位）作为散列地址。

（5）、除留余数法

取关键字被某个不⼤于散列表表长m的数p除后所得的余数为散列地址，即：

h(key) = key MOD p p ≤ m

（6）、随机数法

选择⼀个随机函数，取关键字的随机函数值为它的散列地址，即：

h(key) = random(key)

其中random为随机函数。

2、处理冲突

对不同的关键字可能得到同⼀散列地址，即key1 ≠ key2，⽽h(key1)= h(key2)，这种现象称为冲突。具有相同函数值的关键字对该散列函数来说称作同义词。

在⼀般情况下，散列函数是⼀个压缩映像，这就不可避免地会产⽣冲突，因此，在创建散列表时不仅要设定⼀个好的散列函数，⽽且还要设定⼀种处理冲突的⽅法。

常⽤的处理冲突的⽅法有：

（1）、开放定址法

hi =(h(key) + di) MOD m i =1,2,…,k(k ≤ m-1)

其中，h(key)为散列函数，m为散列表表长，di为增量序列，可有下列三种取法：

1)、di = 1,2,3,…,m-1，称线性探测再散列；

2）、di = 12,-12,22,-22,32,…,±k2 (k ≤m/2)，称⼆次探测再散列；

3）、di = 伪随机数序列，称伪随机探测再散列。

（2）、再散列法

hi = rhi(key) i = 1,2,…,k

rhi均是不同的散列函数。

（3）、拉链法

将所有关键字为同义词的数据元素存储在同⼀线性链表中。假设某散列函数产⽣的散列地址在区间[0,m-1]上，则设⽴⼀个指针型向量void *vec[m]，其每个分量的初始状态都是空指针。凡散列地址为i的数据元素都插⼊到头指针为vec[i]的链表中。在链表中的插⼊位置可以在表头或表尾，也可以在表的中间，以保持同义词在同⼀线性链表中按关键字有序排列。

3、散列表上的运算

散列表上的运算有查、插⼊和删除。其中主要是查，这是因为散列表的⽬的主要是⽤于快速查，且插⼊和删除均要⽤到查操作。

插⼊和删除的时间均取决于查，故只需要分析查操作的时间性能。

虽然散列表在关键字和存储位置之间建⽴了对应关系，理想情况是⽆须关键字的⽐较就可到待查关键字。但是由于冲突的存在，散列表的查过程仍是⼀个和关键字⽐较的过程，不过散列表的平均查长度⽐顺序查、⼆分查等完全依赖于关键字⽐较的查要⼩得多。

688IT编程网

Search算法原理

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

Search算法原理

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式