第三章网络信息检索工具
【知识框架】
信息检索的一般流程
网络经贸信息资源的概念与类型
网络资源查询方法及检索工具
▪ 按检索机制分:
目录型(Subject directory, catalogue)
索引型:搜索引擎(Search Engine)
混合型(Hybrid tools)
▪ 按检索内容分:
综合型
专题型
特殊型
▪ 按包含检索工具数量分:
单一型(Singular search tools)
集合型(Collective search tools):元搜索引擎(Metasearch Engine或Megasearch Engine
目录型检索工具(Subject directory catalogue)
搜索引擎(Search Engine)
▪ 单一搜索引擎
▪ 集成搜索引擎
检索工具的工具——指南类检索工具和元搜索引擎
▪ (一)网络资源指南(Resource Guide)
也称学科门户SIG
▪ (二)元搜索引擎
集合式搜索引擎、索引式搜索引擎
▪ (三)手工检索工具的“工具书指南”、网址簿
网络版参考咨询工具(Reference Tools)
智能搜索代理和搜索软件
补充教材第二章:
检索工具与语言
检索策略
【主要内容】
1、信息资源检索的一般流程
分析问题
▪ 问题分类
▪ 分析已知和欲知信息
▪ 分析需求主题
▪ 广泛利用文献
▪ 选择检索范围
选择检索工具
▪ 熟悉各种检索工具
从检索工具中查所需信息
获取原文
2、网络信息资源的概念和类型
1)按传输方式分:
● WWW
● FTP
● Usenet/Newsgroup
● LISTSERV/Mailing List
● Telnet
● Gopher
● WAIS
2)按内容加工
一次加工信息
▪ 网上图书、期刊、报纸、专利、政府出版物、会议资料等
二次加工信息
▪ 文摘索引数据库、搜索引擎、网站导航等
三次加工信息
▪ 百科全书、手册指南等参考型网站
3)格式与后缀
3、网络检索工具的分类
按检索机制分:
▪ 目录型(Subject directory, catalogue)
▪ 索引型:搜索引擎(Search Engine)
▪ 混合型(Hybrid tools)
按包含检索工具数量分:
▪ 单一型(Singular search tools)
▪ 集合型(Collective search tools):元搜索引擎(Metasearch Engine或Megasearch Engine
4spider软件、目录型检索工具(Subject directory catalogue)
1)网络资源目录
这是一种独立型检索工具,网站自身包含可检索的数据库。网络资源目录又称网站目录、分类站点目录、专题目录或主题指南、站点导航系统、主题词典型检索工具等。这是一种将网络资源搜集后,按某种分类法进行组织整理,并和检索法集成在一起的信息检索方式。
特点:
▪ 人工设计和编制的、供检索的等级结构式目录(指南、导航系统)
▪ 所收录资源经过鉴选和组织
▪ 减少了检索中的噪音,提高了检索的准确性
▪ 数据库的规模相对较小
▪ 新颖性不强,(会有“死链接”dead link)
▪ 用户要熟悉其分类体系
目录型检索工具比较适合于查综合性、概括性的主题概念,或对检索准确度要求较高的课题
原理:
网络资源目录一般:
▪ 采用人工方式采集网络信息;
▪ 通常以某种分类体系为依据,将网络信息资源分为若干领域的主体范畴,然后再细分为各学科专题目录。
网络资源目录的分类通常采用主题分类法、学科分类法、体系分类法。一个网络资源目录包括许多层,第一层是总目录,将网络资源分成若干领域的主题范畴,然后链接到第二层专题目录,再链接到第三层子目录,依次而下,直至具体的信息资源,形成一个由信息链组成的树状结构。
有代表性的目录型检索工具:Yahoo 分类目录检索;开放目录项目(Open Directory Project ,简称ODP);
5、搜索引擎(Search Engine)
特点:
- 收录、加工信息的范围广、速度快;
- 检索功能强,一般可称为网络资源的关键词索引;
- 检索时直接输入关键词或词组、短语,无需判断类目归属,比较方便;
- 标引过程缺乏人工干预,准确性较差
- 检索误差(噪音)较大
搜索引擎适合于检索特定的信息,及较为专、深、具体或类属不明确的课题
工作过程:
单一搜索引擎的结构一般由三部分构成:信息采集、索引数据库、用户检索。用户所熟悉的只是占搜索引擎很小部分的人机交互界面——用户通过这一界面输入需要检索的信息,系统则反馈给用户相关的信息。构成搜索引擎主要内容的是不为用户熟悉的后台部分,即作为搜索软件程序的“Robot”、“Crower”、“Spider”。这类程序能自动地在网上漫游,从一个或一组URL开始访问,并进行本地索引,同时记录该URL所指的HTML文件中所有的新的URL链接,不停地以到的URL为起点进行本地索引,直到再没有满足条件的新的URL地址或超出了某些限制。
自动采集信息是搜索引擎的主要功能。自动索引程序要对HTML文档中的超文本标记进行分析,提取出符合用户需要的主要内容,并存放在信息库中。这些软件会定期或不定期地拷贝所访问的国际互联网主机的内容,然后由提供检索服务的公司或单位统一进行标引和组织。
自动索引程序将采集和标引的信息汇集成索引数据库,并随时顺着链接跟踪网上新加入的主页,为其建立索引,这是搜索引擎提供检索服务的基础。
不同检索工具的数据库一般根据各自的信息资源采集的范围和侧重点设计而成,分类体系差别较大,没有统一的、严格的标准,收录的范围不一样,规模也不一样。数据库收录的内容一般有:网站的名称、标题、网址URL、网页的长度、相关的超文本链接点、关键词、内容简介或摘要等。
工作原理:
搜索引擎通常使用两种技术实现信息检索。
▪ 一是使用网站分类技术,即把网站进行树状的归类,对每个网站都有简略的描述(如雅虎)。
其优点是为网络信息导航带来方便;
缺点是这种描述不能深入到网站内部,造成信息丢失。
• 二是使用全文检索技术,全文处理的对象是文本,通过网页抓取程序对大量网页数据建立由字(词)组成的倒排索引,以便使用户用关键词对文档进行查询,系统则返回含该关键词的网页。
6、单一搜索引擎的结构
单一搜索引擎的结构一般由三部分构成:信息采集、索引数据库、用户检索.
7、检索工具的工具——指南类检索工具和元搜索引擎
1)网络资源指南(Resource Guide)
网络资源指南,一般被称为指南类检索工具, “网络检索工具的工具”,是为用户筛选质量好、效率高、符合需求的网络检索工具,并指出检索途径和方法的网络指南。
特点:网络指南多为大范围的网络链接,一般不直接提供检索结果,但却为人们检索其他各类网络信息提供重要的检索入口。这类指南可以克服搜索引擎检索结果杂乱的弱点,通过对网络专业信息资源的挖掘、采集、加工、整理和序化重组,形成一个专门为专业用户服
务的信息资源指南,使检索更为系统、有序、快捷。这类指南使用的名称也多种多样,如虚拟图书馆的“咨询中心”、资源链接中心、资源索引(Resources Index)等。
2)学科信息门户
学科信息门户,亦称门户网站、信息门户 (Subject Information Gateway),是将特定学科领域的信息资源、工具和服务集成为整体,为用户提供可靠的网络学科信息导航、方便的信息检索和服务入口。
作用:
通常为用户提供对因特网上信息和应用的“密集”访问方式,将来自不同信息源的信息集中在一个页面上,帮助用户通过统一的入口检索不同网站的信息,而无需逐个访问单独的网站。这种信息组织方式,再加上个性化服务和各种附加服务(如公共信息、邮件、信息订阅等),逐渐演变成为网络信息检索的又一高质量工具。
特点:
1)在线提供对若干站点和文档的链接;
2)通过人工筛选信息;
3)智能地产生包括注解和评论在内的内容描述信息(如元数据),有的提供信息的分类和主题标引;
4)智能地构建分类浏览结构;
5)支持手工构建单个信息资源的(书目)元数据。
与搜索引擎的比较:
学科信息门户:
▪ 主要不是通过自动化手段来获取和组织信息,而是采用人工选择和标引保证信息的质量,使之在数量上少而精;
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论