浅析各类搜索引擎之间的联系与区别
摘要 internet上蕴藏着非常丰富的信息资源,但是要从浩如烟海的信息中准确、及时、方便、迅速的到自己所需要的信息,却并不是一件容易的事情.为此应对重点网络搜索引擎的检索技术和功能作一全面的介绍.使学生在网络信息检索中选择了好的搜索引擎,才能快速、准确地到所需要信息.本文主要对百度和google两个典型搜索引擎之间的检索技术、各自特点进行全面的比较和分析,从而得出各类搜索引擎之间的联系与区别。
关键字 google 百度 搜索引擎 比较分析
Google是世界上最大的搜索引擎,通过对200多亿网页信息的整理,每天为世界各地提供1.5亿次以上的网上信息查询服务。百度是全球最大的中文搜索引擎, 拥有超过10多亿的中文网页数据库, 每天响应超过亿次的网络信息搜索请求。在这两大搜索引擎之间, 搜索的结果平均有英汉互译在线翻译85%的不同,因此,有网站把两者结合建立了百Google度。然而,这两大搜索引擎之间究竟有什么特点和区别,本文将根据数据加以分析、比较研究。
Google与百度的特点
Google的特点
google秉持着开发“ 确解用户之意, 切返用户之需” 的“ 完美的搜索引擎” , 使得搜索方式发生了根本性变化, 在业界独树一帜, 其强大的功能和独到的特点就在于:
(1) “ 网页快照” 功能。能从google服务器里直接取出缓存的网页。如果原地址打开很慢, 那么可以直接查看google缓存页面, 因为google服务器速度极快;如果原链接已经死掉或者因为网络的原因暂时链接不通, 那么可以通过google快照看到该页面信息;如果打开的页面信息量巨大, 一下子不到关键词所在位置, 那么可以通过google快照, 因为快照中google用黄表明关键字位置。
(2) “ 单词英文解释” 功能。写英文文章的时候, 最头疼的事情就是对某个英文单词的用法不确定。现在有了google, 一切就迎刃而解了!无论你是想查某个生词的意思还是想了解某个单词的用法, 均可使用在线词典。
(3) “ 网页翻译” 功能。google提供了网页翻译功能, 虽然目前只支持有限的拉丁语、法语、西班牙语、德语和葡萄牙文, 但是不得不承认, 这是个杰出功能, 只要你点击“Translate t
his page ” 按钮, google为你提供了人工智能的机器翻译, 翻译出来的结果让你大致能够看得明白。
(4) “ 搜索结果过滤” 功能。网络上的成人信息浩如烟海, 而且很多站点具有欺骗或者其他不良企图, 浏览者很容易掉入其中的陷阱。为此google新设立了成人内容过滤功能, 见google的设置页面,不过, 中文状态下的尚没有这个功能。
(5) “ 超文本匹配分析” 功能。google的搜索引擎, 同时也分析网页内容, 它并不采用单纯扫描基于网页的文本的方式, 而是分析网页的全部内容以及字体、分区及每个文字精确位置等因素, 同时还会分析相邻网页的内容, 以确保返回与用户查询最相关的结果。
(6) “ PageRank,” 技术。通过对由超过5000万个变量和20亿个词汇组成的方程进行计算,PageRank能够对网页的重要性做出客观的评价, 它并不计算直接链接的数量, 而是将从网页A指向网页B的链接解释为由网页A对网页B所投的一票, 这样会根据网页B所收到的投票数量评估该页的重要性, 提供准确率极高的搜索结果。
(7)“ 图片搜索” 功能。google可以检索390000000张图片, 并称为“ 互联网上最好用的图像搜索工具” , 对中国用户而言, google的图片搜索引擎是最好的图像搜索工具。
(8)“ 新闻组搜索” 功能。新闻组有详尽的分类主题, 某些主题还有专人管理和编辑, 具有大量的有价值信息。由于新闻组包含的信息实在是海量, 因此不利用工具进行检索是不大可能的。2001年google将DEJA收购并提供了所有DEJA的功能。现在, 除了搜索之外, google还支持新闻组的WEB方式浏览和张贴功能。
(9)“ 目录检索” 功能, 如果不想搜索广泛的网页, 而是想某些专题网站, 你可以访问google的分类目录。分类的网站目录一般由专人负责, 分类明确, 信息集中。
(10)其他功能。google的其他功能还包括查询电话号码、查PDF文件、股票报价、谁和你链接、查站点、查字典释意, 等等。
百度的特点
百度致力于倾听、挖掘与满足中国网民的需求, 秉承“ 用户体验至上” 的理念, 除网页搜索外, 还提供MP3、文档、地图、传情、影视等多样化的搜索服务, 将无数网民头脑中的智慧融人了搜索, 使“百度一下” 已经成为了人们进行搜索的新动词。其独有的功能和特点就在于:
(1)“ 百度快照” 功能。如果无法打开某个搜索结果, 或者打开速度特别慢, “ 百度快照” 能帮您解决。每个被收录的网页, 在百度上都存有一个纯文本的备份, 称为“ 百度快照” 。由于百度速度较快, 您可以通过“ 快照” 快速浏览页面内容。
(2)“ 相关搜索” 功能。搜索的结果不佳, 有时候是因选择的查询词不妥当。您可以通过参考别人的做法来获得一些启发。百度的“ 相关搜索” ,就是和您的搜索很相似的一系列查询词。
(3)“ 拼音提示” 功能。如果只知道某个词的发音, 却不知道怎么写, 或者嫌某个词拼写输入麻烦, 这时百度拼音的提示能够帮您解决。只要您输人查询词的汉语拼音, 百度就能把最符合要求的对应汉字提示出来。它事实上是一个无比强大的拼音输人法。
(4)“ 错别字提示” 功能。由于汉字输人法的局限性, 在搜索时经常会输人一些错别字, 导致搜索结果不佳, 这是百度会给出错别字纠正提示。错别字提示显示在搜索结果上方。
(5)“ 英汉互译词典” 功能。百度在线英汉互译词典, 你随便输人一个英语单词, 或者输人一个汉字词语, 点击结果页上的“ 词典” 链接, 就可以得到高质量的翻译结果。百度在线词典
不但能翻译普通的英语单词、词组、汉字词语, 甚至还能翻译常见的成语, 具有直接使用英汉互译功能。
(6)“ 计算器和度量衡转换” 功能。百度网页搜索内嵌的计算器功能, 则能快速高效解决你的计算需求, 你只需简单的在搜索框内输人计算式,回车即可看到计算式的结果。百度的搜索框中, 你也可以做度量衡转换, 当你输人:换算数量换算前单位=?换算后单位, 回车即可得到换算的结果。
(7)“ 专业文档搜索” 功能。百度具有很好的office文档、Adobe PDF文档、RTF文档进行了全文搜索。只要你在普通的查询词后面, 加一个“ filetype” 和文档类型限定。就可快速查看该文档的网页格式内容。你也可以通过百度文档搜索界面而功, 直接使用专业文档搜索功能。
(8)“ 股票、列车时刻表和飞机航班查询”功能。你在百度搜索框中输人股票代码、列车车次或者飞机航班号, 就能直接获得相关信息。例如, 输人股票代码“ 600001” , 搜索结果上方, 就显示邯郸钢铁的股票实时行情。
(9)“ 天气查询” 功能。百度可以随时查询天气预报, 只要你在百度搜索框中输人你要查询的城市名称加上天气这个词, 您就能获得该城市当天的天气情况。百度支持全国多达400多个城市和近百个国外著名城市的天气查询。
(10)“ 超链分析” 技术。百度将传统情报学中的引文索引技术同web中最基本的链接技术相结合, 通过分析链接网站的多少来评价被链接的网站质量, 使得在百度搜索时, 越受用户欢迎的内容排名越靠前.
两大搜索引擎的相关特点折射出各类搜索引擎的联系。它们都有自己服务理念和目标,都有强大的功能为用户服务,并打造自身的技术特点和专长。为用户不断提供优秀的服务质量,并完善自身的技术和不足,吸引用户的使用和得到信赖,不断发展。
google与百度检索技术分析
评价一个搜索引擎的质量, 就需要对检索结果进行比较分析, 为此有必要对google与百度从更新时间、响应速度、查全率、检准率、文档搜索等方面进行比较分析。
(1)规模、内容及更新时间
google多为月更新, 有部分日更新或时更新,搜索范围涵盖了世界各地的网页, 网页数达200多亿。百度平均为周更新, 中文信息大部分时更新,有超过10多亿中文网页, 9千万张图片, 拥有目前世界上最大的中文信息库, 并且还在以每天几十万页的速度快速增长, 涵盖了中国内地、港澳台、新加坡等华语地区及北美、欧洲部分网站。
(2)搜索响应的速度
google有1.5万台服务器, 200多条T3级宽带, 索引功能通过索引库 和排序器来实现。百度在中国各地和美国均设有服务器, 高效的搜索算法和本地服务器保证最快的响应速度。
为了测试google和百度的响应速度, 笔者任意抽取了5个搜索词进行检索, 其结果是google的平均响应时间小于0.13秒, 百度的平均响应时间小于0.06秒(参见:搜索响应时间统计表), 百度的搜索响应的速度要快于google。
搜索响应时间统计衰
搜索词 | google | 百度 |
李文红 | 393000条 0.23秒 | 888000 0.001秒 |
信息组织学 | 1160条 0.05秒 | 308000 0.089秒 |
美对售 | 770000条 0.22秒 | 88300条 0.082秒 |
新农村文化建设 | 4560000条 0.07秒 | 525000条 0.001秒 |
网络信息资源检索 | 3850000条 0.06秒 | 27300条 0.125秒 |
平均响应时间 | 0.13秒 | 0.06秒 |
(3)资源查全率
google收取了大概200亿的英文搜索页面,互联网上总的英文网页的数量大概在300亿左右,google已经覆盖了英文网页数据量的60%到70%,在这个条件下, 所以它的用户满意度能达到60%到70%。互联网上中文网页有效数量大致在100到150亿之间, 而百度和收录的文网页量都在40亿到50亿之间, 因而, 百度和google的中文网络资源查全率一般只能达到任30一40%。对西方网络信息资源查全率进行研究, 百度与google同样无与伦比。
(4)网络信息资源检准率
检准率是衡量网络信息检索质量的标准, 也是网络信息检索的一个突出问题。搜索引擎的检准率体现在两个方面, 一是搜索引擎对垃圾网页的抗干扰能力, 二是搜索引擎对检索结果的排序能力, 它主要取决与搜索引擎采用的排序算法的优劣。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论