互联网的发展可以用日新月异来形容,它每时每刻都在发生变化。由于互联网上的信息是呈几何级数增长且极其无序的,信息量越大,越难被利用。没有人对互联网上信息的有效性和有序性负责,因此如何进行快速有效地查询,获取和利用互联网上的信息,就成了一个大问题。目前解决这一问题的最佳途径是利用搜索引擎。这个需求直接导致了信息检索技术的快速发展,各类搜索引擎层出不穷。
但是如同互联网上的信息一样,搜索引擎的发展本身也是无序的,我们要通过搜索引擎,在互联网上到需要的信息,直接获得自己想要的东西,或者学习之类都是面对海量信息。因此我们首先要了解其特点。
如何选择最符合需要的搜索引擎,通过其在互联网上到我们所需要的信息,也是一个需要研究和解决的课题。基于这个目的,我们对目前互联网上较有规模的中文搜索引擎作一个粗浅的比较,以期抛砖引玉,使现有的中文搜索引擎发展得更快更好。
发展历程
一、快速化
速度的提高是现在各个搜索引擎都在努力达到的目标。快不仅仅是指搜索引擎返回结果的速度,更是指搜索引擎获取新信息的速度,现在博客、论坛和资讯网站都已经成为信息最重要的来源,一般都什么重大新闻,直接上百度要多快有多快。
二、多样化
多样化主要包括两个方面:内容多样化和搜索途径多样化。
内容除文字之外还包括图片、音频、视频内容的搜索。而在搜索结果内容上,也是非常的多样化,有图文、最新新闻、微博信息、轻应用、知心搜索等。
搜索途径多样化:可以通过语音指令、动作指令、地理位置等进行搜索。
三、实时搜索
随着个人媒体平台兴起,搜索引擎的实时性要求日益增高,百度也推出了关于微博的实时搜索,搜索方法:浏览器中输入 www.baidu/s?rtt=2&tn=baiduwb&wd=关键字,实时搜索最突出的特点是时效性强,越来越多的突发事件首次发布在微博上,实时搜索核心强调的就是,用户发布的信息第一时间能被搜索引擎搜索到。
优点:不论是中文还是英文搜索都同样出,而且还有业内公认的高水平图像搜索技术与日渐成熟的目录搜索功能。Google是易用性最强的搜索网站,搜索速度快而且提供了最丰富的高级搜索功能。除了不支持自然语言和通配符搜索以外,其他不论是单个汉字、多个汉字或者一个句子,都可以作为关键字在Google上进行搜索。而且Google还支持关键字的简繁转换功能,您只需要输入简体或者繁体的关键字,就可以同时在简体中文网页和繁体中文网页
中查。  
令人印象最深的是,搜索结果的排名准确性相当高。这归功于Google根据网页的相关性、网站内部的链接结构及受欢迎的程度,来确定搜索结果的排列顺序的专利技术PageRank。与传统排名方式不同的是,它能确保优秀的网站总能够排在搜索结果的前列,这也是用户使用Google往往能够更快更容易地命中搜索目标的原因。  
    缺点:死链率比较高是Google最大的问题,中文网站检索的更新频率不够高,不能及时淘汰已经过时的链接。虽然通过“网页快照”功能,可以减少目标页面不存在的现象,但Google的“网页快照”功能在国内经常出现不可访问的问题,令用户无所适从。  

2 “新浪 ”有集众家之长的多种搜索功能,准确性也不错  
    优点:新浪搜索(search.sina)将网页、网站和新浪自己的内容结合在一起,网页搜索使用Google的搜索技术,网站搜索依靠制作人员与网友人工编辑的网站目录来实现。无论是网页搜索还是网站搜索,都能到比较多的结果,而且准确性也不错。  
    缺点:新浪搜索在使用过程中缺少提示信息,并且由于曾经多次更换搜索技术提供商,对用户的影响较大。新浪搜索的帮助文档虽然很详细,但其中的内容有些并没有及时更新,介
绍的还是过时的搜索方法。此外,新浪的网站搜索死链率较高,而且由于编辑水平的参差不齐,有许多网站的说明都比较简单和不清楚。在网站数量有增无减、缺乏科学的排名的情况下,搜索效果不太理想。  

3、“ 雅虎”中规中矩, 网页搜索表现不错,但死链率较高  
    雅虎中国 (cn.yahoo)支持网页、网站搜索,搜索速度快而且准确性比较高。在人工分类目录检索服务方面,雅虎中国有着比较丰富的经验,从1995年开始积累的分类目录服务信息和经验都是其他提供商所无法比拟的,雅虎中国的网站搜索的准确性也体现出了这种优势,并且其网页搜索功能的表现也相当不错。  
    雅虎中国的搜索结果死链率很高,而且缺少一些应有的高级搜索功能。另外,该搜索的易用性有待提高,虽然在5月份升级后改善了网页的界面,严格控制搜索页面中的排名广告,规定每次搜索结果中的广告数量不能超过5个,但用户打开雅虎中国的首页时还是要受到一些影响。而且,对搜索结果的描述和在用户搜索过程中的提示说明也不太清晰、明了,离雅虎“关注用户体验”这一宣传口号,还有一定的距离。  

4、“网易”网站搜索非常出,但缺少提示  
天网搜索最大的缺点是搜索结果死链率很高,同时也缺少一些应有的高级搜索功能。但天网搜索的易用性强,搜索结果的准确性也相当高,对于一个非商业站点来说已经很不错了。特别值得推荐的是,天网搜索的FTP服务器文件搜索功能非常强大,而且还为用户整理了一份庞大的热门搜索关键字目录,方便用户浏览和下载所需的文件。  

搜索网站最主要的功能就是按照用户给出的条件到互联网上相关的资源,因此搜索结果的准确性是最重要的,死链率是影响搜索结果的一大因素,另外,对于一个经常需要使用的工具,其易用性同样是非常重要的。搜索网站支持的关键字种类和高级搜索功能,对我们如何进行搜索也有较大的影响,因此,搜索网站具有什么样的高级搜索功能,搜索的速度快慢等等也都是重要的使用要素。    
而这其中除了百度和谷歌的里面的产品属于开放性搜索外,其他大部分只是目录搜索,但是这些目录搜索的资源也相当的可观,基本上都覆盖了行业中的大部分主流信息。其实百度谷歌属于全文索引类,他们都有自己的程序索引整个互联网中的资源。但是它们里面的很多信息也都是从这些专业的搜索中检索到的,而有些东西只是在不同的位置获取,实际信息确差不多。
百度谷歌之外的这些搜索引擎基本上都属于目录搜索引擎。主要是人工编辑的网站分类目录,目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是和开放性搜索引擎的定义不一样,实际上也可以算搜索引擎的一种类型。当你输入某个关键词搜索的时候,所有含有这个关键词的网页就被出来,并按一定顺序排列。这其实就已经符合搜索引擎的基本原理。其次就是垂直类的搜索引擎,这个不及百度谷歌这类的开放性全文搜索引擎,其次也就是它们了。垂直性搜索引擎只是在搜索行行业进行检索。具有代表性的就是奇虎搜索吧,尤其是奇虎的论坛搜索功能。
搜索引擎的分类
根据搜索引擎的不同分类主要有:新闻类搜索引擎,例如:新浪的新闻搜索、百度的新闻搜索、谷歌的资讯搜索、新华网新闻搜索等等。这些都是针对新闻的搜索。软件类搜索引擎也有很多,比较突出的就是迅雷狗狗搜索,太平洋软件搜索,华军软件园等。根据搜索引擎的分类还有很多,音乐,电影,图片,文档,视频,博客,购物,旅游,地图,生活等等。
1.全文索引
全文搜索引擎是名副其实的搜索引擎,国外代表有Google,国内则有著名的百度搜索。它们
从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。
根据搜索结果来源的不同,全文搜索引擎可分为两类,一类拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,能自建网页数据库,搜索结果直接从自身的数据库中调用,上面提到的Google和百度就属于此类;另一类则是租用其他搜索引擎的数据库,并按自定的格式排列搜索结果,如Lycos搜索引擎。

2.目录索引
目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以按照分类目录到所需要的信息,不依靠关键词(Keywords)进行查询。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo!、新浪分类目录搜索。

3.元搜索引擎
元搜索引擎spider软件(META Search Engine)接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpaceDogpileVivisimo等,中文元搜索引擎
中具代表性的是搜星搜索引擎。在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo

其他非主流搜索引擎形式

(1)集合式搜索引擎:该搜索引擎类似元搜索引擎,区别在于它并非同时调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引擎中选择,如HotBot2002年底推出的搜索引擎。
(2)门户搜索引擎:AOL SearchMSN Search等虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎。
(3)免费链接列表(Free For All Links,简称FFA):一般只简单地滚动链接条目,少部分有简单的分类目录,不过规模要比Yahoo!等目录索引小很多。
搜索引擎的使用
搜索引擎的使用一直困扰很多人,面对着简单的搜索框,如何更好的获取自己喜欢或有用的信息其实是很简单,但是很多人却并不是很了解,很多都只是了解大概,殊不知搜索引擎其实有很多比较有意思的玩意。
目前大家认识的主流的搜索引擎也不外乎是百度和谷歌,其次就是搜搜,搜狗,以及雅虎,bing等,这些都是比较综合的搜索引擎。其他的话,更加不同的分类又有很多比较专业的搜索引擎,主要是针对于自己所在的行业。仅仅对于大众用户来说了解的并不多。
二、善于使用网络信息检索技巧  
互联网信息的无序使得管理和使用都非常不方便,要想快速便捷地对互联网信息进行检索、查询,我们需要依靠搜索网站的帮助。而要用好搜索网站,提高搜索的命中率,我们还需要掌握一些搜索的技巧或使用一些恰当的工具。  
1 选择恰当的关键字  
互联网上流传的所有搜索技巧都是在如何确定关键字上做文章,选择一个好的关键字是搜索成功的关键。关键字代表着我们要搜索资料的特征,如果您不到所需的信息,大部分情况是因为在关键字的选择方向上发生了偏移。出关键字可不是一件简单的事情:首先您需要知道或者估计出目标网页内包含的文字,在脑子里形成一个比较清晰概念,再从中提炼出此类信息最具代表性的关键字。尽量不要选择常用词汇进行搜索,但可以同时使用多个关键字并加入与、或、非等多种逻辑关系进行搜索,这样才能避免返回无关的搜索结果。  
a.避免输入及逻辑关系错误 首先我们要避免输入的关键字中有错别字,以及其他错误的操作。
不同的搜索网站往往都有各自的特点,在某些搜索网站上,您可以使用“Where can I find software?”这样的自然语言进行搜索;但在某些搜索网站上,您甚至不能成功地使用单个汉字作为关键字进行搜索。另外,在使用多关键字通过与、或、非逻辑关系进行搜索时,不同的搜索网站所采用的逻辑关系表示符号也可能有所不同。所以我们有必要针对不同的搜索网站选择不同的关键字,并在首次使用一个搜索网站时,花一点时间阅读搜索网站的帮助文档,这是非常有必要的。  
b.使用多关个键字来提高 检准率 对于大部分的搜索任务来说,一般都能够通过搜索网站到需要的网页,但是如果不细心选择关键字,搜索网站可能会返回很多并不是您需要的结果。此时,如果您将另外一个跟搜索目标相关的关键字加在一起搜索,返回的结果就会少很多,也更加准确。因此,很多时候我们需要使用多个关键字查询的方法来提高搜索准确率。但需要注意的是,搜索网站对关键字的个数可能会有限制。另一方面,也要注意搜索内容之间的逻辑关系是否合理。  

2.句子检索法可有效提高文本检准率  
在使用搜索网站时,不少人经常被“关键字”这个名称所限,而忘了关键字可以是一个字、一
个词,甚至一句话。例如在搜索小说、文章等文本内容时,最简单的方法,是用文本的标题搜索,但最高效的方法,则是用文中的一句话来搜索,可以让您的搜索效率提高不少。  

3.文件检索法 利于快速查文件目标  
如果您的搜索目标是一个文件,如一个公司Logo的图像文件,或者一个设备驱动程序的压缩包,您除了可以用公司的名称或者设备的名称进行搜索外,还可以从文件的名称入手。例如,当您在搜索设备驱动程序时,如果选择设备的品牌、型号为关键字时,搜索网站会返回许多无关的信息,这时,如果在这些关键字的后面再加上ZIPRAR等常见压缩文件扩展名,您会有意外的收获。  

4。“抛砖引玉”法利于快速查相关信息  
如果您有一个非常喜欢的专业网站,并希望从互联网上到更多同类的网站,这时怎么选择关键字最有效呢?或许搜索这个网站的内容类型会到一些不错的站点,例如使用“军事网站”、“医学站点”做关键字,但很多时候这种搜索方法也可能一无所得。实际上最有效的方法是抛砖引玉,用您最喜欢的网站的站点地址作为关键字。因为链接到那个站点的往往是同类站点,用这种方法您肯定能够到一些相关的网站。  

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。