1)信息检索(information retrieval) 是指将信息按一定的方式组织和存储起来,并根据信息用户的需要出有关
信息的过程。所以,它的全称又叫信息存储与检索(information storage and retrieval), 这是广义的信息检索。狭义的信息检索则仅指该过程的后一步,即从信息集合中出所需要信息的过程。相当于我们所说的信息查询(information search)。
2)零次文献:也叫灰文献,未经公开发表或未交流于社会的文献。如私人笔记,设计草图、实验记录、文章草稿、
会议记录、书信文书、以及档案等。其主要特点是内容新颖,但不成熟,不公开交流,难以获得。
3)一次文献(Primary Document): 以著者本人的研究或研制成果为依据而创作或撰写的文献,习惯上称做原始文
献。如期刊论文、科技报告、专利说明书、会议论文、学位论文等。体现创作性。其主要特点是内容新颖丰富,叙述具体详尽,参考价值大,但数量庞大、分散。
4)二次文献(Secondary Document):
就是检索工具。是将大量分散的无组织的一次文献经浓缩,整序的加工整理,编辑成目录、题录、文摘、索引等检索工具或数据库。如文摘,目录、索引等。它有存贮、检索、报道的功能。体现高度的浓缩性。其主要功能是检索、通报、控制一次文献,帮助人们在较少时间内获得较多的文献信息。二次文献具有汇集性、工具性、综合性、交流性等特点。
5)三次文献(Tertiary Document):
在一、二次文献的基础上,经过综合分析而编写出来的文献,如专题述评、动态综述、学科年度总结,进展报告以及数据手册、百科全书等参考工具书。三次文献是情报研究的产物和成果。具有很强的的综合性。
总之,一次文献(创造性),二次文献(有序化),三次文献(高度浓缩,提炼,再创造)。
6)以上四个级别的文献中,零次文献由于没有进入出版、发行和流通这些渠道,收集利用十分困难,一般不作为我
们利用的文献类型。而后三种文献是一个从分散的原始文献到系统化、密集化的过程。
7)一般来说,一次文献是基础,是检索利用的对象。二次文献是检索一次文献的工具,也称之为检索工具。三次文
献是一次文献内容的高度浓缩,也是我们利用的一种重要资源。
8)(1)图书(book)
9)      凡篇幅达48页以上并构成一个书目单元的文献称为图书(Book)。图书阅读量占到10%-14%。
10)特点:系统、全面、成熟,出版形式比较固定,但出版周期长,传递情报速度比较慢。
11)(2)期刊(periodical,journal or magazine)
特点:出版数量大,周期短,内容新颖,能迅速反映国内外的各种学科专业的水平和动向。占阅读量的65%。
期刊分为:月刊(monthly)、双月刊(bimonthly)、季刊(quarterly)、年刊(annuals)。
12)1)学术性、技术性刊物,是科技期刊的核心部分。 刊名一般为:Acta(学报)、Journals(杂志)、annals(纪
事)、Bulletin(通报)、Transactions(汇刊)、Proceedings(会刊)、Review(评论)、Progress;Advances in ...
(进展)等。
13)2)快报型。Communication(通讯)、letters(通讯)、bulletin等。
14)3)消息性(newsy journals)。news(新闻)、news letters等。iv.资料性(data journals)。data、event等。
15)核心期刊:
《中文核心期刊要目总览》(2000)指出:“某学科(或专业或专题)的核心期刊是指该学科所涉及的期刊中,刊载论文较多的(信息量较大的),论文学术水平较高的,并能反映本学科最新研究成果及本学科前沿研究状况和发展趋势的,较受该学科读者重视的期刊”。
这一定义从信息量、学术水平和读者三个方面对核心期刊进行较为全面的描述,但现实的核心期刊是并非这样,而是有很大出人。
16)情报专家研究,认为在本学科专业中,20%的期刊占据了80%以上的有关信息,这就是核心期刊
17)(3)科技报告(science&technical report)
18)      指各学术团体、科研机构、大学研究所的研究报告及其研究过程中的真实记录。它的特点:内容详尽、
专深,能代表一个国家的研究水平,特别是一些新兴学科和尖端科学的研究成果往往首先在科技报告中反映出来。
理论性强,数据可靠,但保密性强,难以获取。
19)(4)会议文献(conference document)
国内外各种学术团体召开的专业会议上发表的论文与报告。特点:学术性强,内容比较新颖,通常代表
着一门学科的最新研究成果。
20)(5)专利文献(patent)
21)指发明人向政府部门(专利局)递交的、说明自己的创造的技术文件,同时也是实现发明所有权的法律性文件。专
利文献包括专利说明书、专利公报(摘要)、商标、设计公报以及检索专利的工具等。具有技术性、新颖性、独创性、实用性等特征,是重要的技术经济情报来源。
22)类型:发明专利、实用新型专利和外观设计专利三种
特点:
(1)排他性或独占性
(2)自成体系
(3)时效性。
(4)相关性
23)(6)标准文献(standard literature)
24)      标准是对产品、工程和管理的质量、规格、程序、方法所做的规定。一般由有主管部门颁布,是从事生
产、管理的一种共同依据和准则,包括标准(Standard)、规范(Specification)、技术要求(Requirement) 标准文献的特点
约束性、适用性、统一性、可靠性、协调性、时效性。
25)(7)学位论文(dissertation)
学位论文是指高等学校或研究机构的学生为取得学位,在导师的指导下完成的科学研究、科学试验成果的书面报告。它具有选题新颖、引用材料广泛、阐述系统、论证详细的特点。按授予学位的级别不同,分为学士学位论文、硕士学位论文、博士学位论文。
26)检索词、检索式、检索策略(第四章详细介绍)
检索词是用户或检索人员给出的字、词、字符或短语,用于查含有它(它们)的记录。
检索式也称检索提问式,是要求系统执行的检索语句。简单的检索式由一个检索词和一个字段名构成,复杂的检索式由多个检索词和字段名通过关系算符连接而成。如:要利用英文搜索引擎查网络信息检索方面的资料,检索式为(Web OR Internet OR WWW) AND (Search* OR Retrieval*)。
27)检索策略:
所谓检索策略,就是在分析课题内容具有哪些概念单元的基础上,确定检索系统、学科领域、检索文档、检索途径和检索词,并科学安排各检索词之间的位置关系和逻辑关系以及查步骤等。也就是为满足信息需求所制定的一系列检索方案
28)5)检中结果、查全率、查准率(第四章详细介绍)
数据可视化名词解释检中结果又称检索结果集,是数据库中满足(检索式(即符合检索条件)的那些记录的集合
查全率:是指检出文献中合乎需要的文献数量占数据库中存在的合乎该需要的所有文献的比例
查准率:是指检出文献中合乎需要的文献数量占检出文献全部数量的比例
29)2、信息检索的类型:
(1)根据检索手段的不同,分为手工检索、计算机检索(光盘检索、联机检索和网络检索)
(2)根据检索对象、
形式的不同,分为文献型信息检索、数据型信息检索、事实型信息检索。
30)文献型信息检索(Document Retrieval):以文献(包括题录、文摘)为检索对象的检索。凡是查某一主题、
时代、地区、著者、文种的有关文献,以及回答这些文献的出处和收藏处所等,都属于文献型信息检索的范畴。
完成文献型信息检索主要借助于各种书目型数据库。
31)数据型信息检索(Data Retrieval):以数值或数据为对象的一种检索,包括文献中的某一数据、公式、图表,
以及某一物质的化学分子式等,数据检索分为数值型与非数值型。完成数据型信息检索主要借助于各种数值数据库和统计数据库。
32)事实型信息检索(Fact Retrieval):以某一客观事实为检索对象,查某一事物发生的时间、地点及过程的检
索,其检索结果主要是客观事实或为说明事实而提供的相关资料。如:2001年7月通过的奥运会主办城市的结
果与过程。完成事实型信息检索主要借助于各种指南数据库和全文数据库。
33)4、网络信息检索的发展趋势
智能化
可视化
简单化
多样化
个性化
商业化
34)(1)智能化
智能化是网络信息检索未来主要的发展方向。智能检索是基于自然语言的检索形式,机器根据用户所提供的以自然语言表述的检索要求进行分析,而后形成检索策略进行搜索。
目前已有一些搜索引擎支持智能检索,但其智能化程度不高。而近年来internet上不断涌现的人工智能产品,如智能搜索引擎、智能浏览器、智能代理、知识共享智能体等,都将提高网络信息检索的智能化程度
35)(2)可视化
可视化的优点在于图象的表达方式生动、形象、准确、效果更高,能从多角度揭示,而纯文字的表达方式是模糊、一维的。
信息检索中的可视化是将数据库中不可见的语义关系用图象形式可视化显示并表达用户检索过程。在可视化空间展示的信息可以看见它们是二维的或三维的。(信息检索中,实现语义控制是人们的理想,而现实的信息检索是基于“字符串”的检索、匹配与表达)
36)(3)简单化
未来家用电脑将朝着智能化、网络化、人性化和绿环保的方向发展;操作系统的用户友好性将不断增加,如微软和苹果公司都在致力于操作系统网络化研究,以便使其中的任意应用程序都能“连接”进行“网络检索”,并与网络“交互”;各搜索引擎检索界面更加“傻瓜化”,使用户学习和进行网络信息检索更加容易;网上自动标引、自动文摘、自动跟踪、自动漫游、机器翻译、多媒体技术、动态链技术、数据挖掘和信息推拉等技术逐步发展、完善,会越来越方便用户及时准确的检索信息。这些硬件与软件技术的发展都有利于网络信息检索的简单化。
37)(4)多样化
多样化首先表现在可以检索的信息形态多样化,如文本、声音、图象、动画。
多样化的第二个表现是检索工具向多国化、多语种化方向发展。AltaVista不仅提供了包括中文在内的25种语言检索系统,还提供仂种拉丁语系的语言与英语互译的功能。Google,Yahoo!,HotBot,Lycos
《Excite和WebCrawler都在世界各地设立了分支机构,使检索服务本地化;并增加服务器,分流用户,提高上网查询速度。
多样化的第三个表现是网上检索工具的的服务多元化,为用户提供全方位的服务。(不是单纯的检索工具) 38)(5)个性化
个性化指各网站贯彻以用户为中心的理念,注重内容的特化和注重个性化的服务。
39)(6)商业化
网络检索系统不再仅仅是一种检索工具,而且成为一项产业,它的商业利益成为推动系统完善和扩展的主要动力,网络信息的检索与利用由公共性转向商业化Infoseek是第一个对网络信息检索收费的检索工具,但由于它在收费的同时未能为用户提供特殊的高质量信息服务,不久便自生自灭了。
40)什么是检索语言:检索语言是检索系统存贮与检索运用的共同语言。换言之,描述信息系统中信息的内容特征及
外表特征和表达用户信息提问的一种共同语言。
41)2  功能:简单明了而又比较专指的描述文献的主题概念;容易将概念进行系统排列;检索时便于将标引用语和
检索用语进行相符性比较等。是标引文献的依据,检索文献的条件,是沟通情报人员与用户思想的桥梁。
42)3、检索语言的类型
按文献内容特征
1  主题法语言                                  标题词语言
(较准确,具体到点)                关键词语言
单元词语言
叙词语言
2 分类语言
(较全面,具体到面)                体系分类语言
组配分类语言
混合分类语言
43)5.2关键词(keyword)
出现在文献标题、文摘及正文中,对表达文献主题内容具有实质性意义的词语,即在揭示与描述文献主题内容中起关键性作用的科技名词术语。(直接使用的自然词语)。一般是现成的词汇
44)5.3单元词(Uniterm)
属于后组式语言。将多元概念分解为不能再分的单元概念。(代表文献实质意义、可以独立存在的最小概念单元)      如“大学”和“研究”都是单元词,因为它们都不能再分。把“大学”分为“大”和“学”都不再是具有独立和明确的意义。
但“大学教育”和“科学研究”却可以进一步分解。如分解为“大学”和“教育”,或“科学”和“研究”
都具有独立的意义。
45)5.4 叙词(Descriptor or Thesaurus):
以概念为基础,经规范化处理,具有组配性能并能显示词间语义关系的科技名词术语。(经规范化的可以独立表达主题概念的词语)
特点 (1)它不仅适用于手工检索,更适用于计算机检索。
(2)不仅在于拆词,更在于拆义。
叙词语言综合了各种语言的优点,因此在表达文献主题内容上更为准确、全面,是目前计算机检索中用的最普遍的一种语言,科学实用。
46)一、计算机信息检索的基本技术:
布尔逻辑、截词检索、字段检索,位置算符等。
在进行计算机检索时,有时有一些比较复杂的课题,如:“GPS在建筑中的应用”,既涉及GPS,又涉及建筑,还有“应用”,这时候就要编制出满足要求的计算机检索式,它是机检的基础。
47)1布尔逻辑检索
(Boolean Logic Retrieval)
逻辑检索的基础是逻辑运算,逻辑运算中最常用的是布尔逻辑运算符(Boolean Logic Operators),即与、或、非三种运算符号,用它们可以表示概念之间的逻辑关系。
检索要求 逻辑检索 课题 表达式 检索结果
概念相交、限定 AND与* 计算机用于制图
A          B A AND B
A * B
缩小检索范围
提高查准率
概念平行、并列 OR
或+
土地管理与土地利用
A                      B
A OR B
A+B
扩大检索范围
提高查全率
某一主题去掉一部分相关主题 NOT非- 除光电测距以外的
A
电磁波测距
B
B NOT A
B-A
提高查准率
48)2 位置算符(Proximity Operators)
位置算符是表示检索词之间位置关系的一种运算符。由于英文对一句话有多种表达方法,写法可能不同。
如:“GPS在铁路桥研究中的应用”这个课题,用英文表达可能是“Using of GPS in Railway Bridge”, 也可能是“Using of GPS in Bridge of Railway”,因而可能编制出这样的检索式,GPS AND (Railway (2N)Bridge) 我们可以通过位置检索提高检索的准确率
49)(1)  (W)算符与(nW)算符  W 是word与 with的缩写。
特点:W词序不变,中间不可插词,但两词间可有一个标点,连字符或空格。
nW词序不变,中间可插入N 个词。
如:potential (w) energy可能检出potential energy    and    function
又如:gone (2w)wind  可能检出gone with the wind
50)(2)  (N)与(nN)算符    N是near的缩写
特点:N词序不限,中间不可插词,但两词间可有一个标点,连字符或空格。
nN词序不限,中间可插入N 个词。
如:econom?? (2N)recovery可能检出economic recovery,recovery of the economy,
51)(3)同字段检索A(F)B,F是field的缩写。
特点:A、B两词必须出现在同一字段中,词序与词量不限。
如:environment (F)impact/DE,表示两个词必须同时出现在叙词字段内。
52)(4) 同句检索A(S)B,S是sentence的缩写。
特点:A、B出现在同一自然句中(子字段),其词序与词量不受限制。
如:electric (S)plant可检出electric power plants
如:EI中的NEAR;PQDD中的W/n (两词间距小于n个单词,且前后位置任意),Pre/n (两词间距小于n个单词,且前后位置一定)
53)3截词算符(Truncating operators)
在英语词汇中,一个词可能有多种形态,如词的单、复数形式的不同,英美拼写方法不同、词性不同等。
如果检索时将这类词全部输入进去,会增加检索时间和费用,采用截词法可解决这一问题。所谓截词检
索,是指在检索标识中保留相同的部分,用相应的截词符代替可变化部分。检索中计算机会将所有含有相同部分标识的记录全部检索出来。常用“?”、“*”符号表示。
54)(1)有限截词。即在检索词后后截几个有限的字母,如名词的单复数,动词的词尾变化等。
如输入computer? ?表示有0-1个字母变化,可检出computer和computers.
输入stud???表示截断处有0-3个字母变化,可检出study,studies,studied,studing.
55)(2)无限截断:在检索词后加一个“?“,表示该词后可加任意个字符。使用无限截词,所截词根不能太短,
否则会输出许多无关文献,造成误检。如:computer?可检出computers,computering,computered,computerization.
56)(3)中间截断:在检索词中间加一个或几个?号,主要解决一些英美拼写不同,单复数形式的不同的词的输入,
可简化输入。
如:输入wom?n可检出  woman,women
57)各种算符在数据库中的实际应用
位置算符1)EI
58) NEAR    Bridge NEAR Piling*
59)表示这两个词要彼此接近,前后顺序不限。
60)W/n  Pig*W/2pine*表示两个词的距离不能超过n个单词
61)Adj  Channel adj tunnel表示含有这两个词,两个词相邻,位置一定
62)2)ISI Proceedings 用同句算符(SAME):如Channel same tunnel,表示channel 和tunnel 出现在同一句子
中才符合检索条件。
63)CSA  within "X“
64) 表示两词之间不得多于x个词,前后位置任意
如“women within 8 movement” (顺序不定)
65)4)Elsevier:
66)    ADJ表示两词相邻,前后顺序固定,与"词检索"的结果相同;NEAR或NEAR(N),表示两词相邻,中间可插
入少于或等于n个单词,前后顺序可以发生变化,如果不使用(N),系统默认值为10 5)PQDD
67)    W/n (两词间距小于n个单词,且前后位置任意),Pre/n (两词间距小于n个单词,且前后位置一定)
68)6)ProQuest

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。