第14期2019年5月No.14May ,2019
邵燕霞,李晓娟*
(华北电力大学图书馆,河北保定071003)
引言
查收查引是国内图书馆提供信息服务工作的一项重要内容,通过作者姓名、单位、篇名、关键字、期刊名称及卷期、发表时间、会议信息、入藏号、地址等内容组织检索策略,检索论文在国内外权威数据库的收录与引用情况、期刊影响因子等信息,并出具检索结果证明报告[1]。目前,我国在职称评定、申报课题立项、基金资助、成果奖励等方面均需要相关人员提供其发表的论文被WOK 检索平台Web of Science 引文数据库收录,Web of Science 引文数据库包括科学引文索引(Science Citation Index ,SCI )、社会科学引文索引(Social Science Citation Index ,SSCI )、科学技术会议索引(Conference Proceedings Citation Index-Science ,CPCI-S )、社会科学及人文科学会议索引(Conference Proceedings Citation Index -Social Science &Humani⁃ties ,CPCI-SSH ),以及被工程索引(Engineering Index ,EI)、中文社会科学引文索引(Chinese Social Sciences Citation Index ,CSSCI )、中国科学引文数据库(Chi⁃nese Science Citation Database ,CSCD )等数据库收录的信息和被引用频次已成为评测其科研能力和水平的重要评价指标。
随着高校学科建设的推进,科研创新能力不断提升,科研人员申报科研立项、成果奖励日益增加,科研人员对论文查收查引的服务也提出了更加具体和拓展的需求,不仅需要高效准确地提供论文被数据库收录性、是否入选ESI 高被引论文和热点论文、出版物在中科院JCR 期刊分区表中的期刊分区及影响因子等信息,还需要对数据进行深入的分析,提供关键词共现、作者合作关系、施引文献中的他引频次统计等信息内容。图书馆依靠人工检索进行查收查引,已不能满足日益增加的需求。开发相关的软件辅助人工
检索完成查收查引并自动形成报告已成为查收查引工作的发展趋势。
文献查收查引分析等工作随着数据量的增多而愈加复杂,可重复性工作需要合适的工具来处理这些数据集,减少人为干预,降低错误概率。为了提高工作效率,减少工作人员的重复性工作,华北电力大学图书馆设计开发了此论文查收查引可视化软件,为科研人员提供可视化论文收录计量分析数据,为检索报告的生成提供了基础数据。本文介绍了一套基于Py⁃thon 语言开发的论文查收查引可视化软件,并以华北电力大学作者论文SCI 收录计量分析为例进行展示。1查收查引软件利用与开发研究现状
目前,从提高工作效率及检索质量的实际工作需求出发,国内在引文检索、利用现有工具查收查引、开发查收查引工具软件、开发查收查引服务平台及查收查引系统软件方面进行了积极的探索研究和实践,代表性研究如表1所示。
利用现有办公软件以及文献管理软件,如Word ,Excel ,EndNote ,NoteExpress 等对引文数据进行处理和统计,解决了查收查引当中存在的一些实际问题,在一定程度上提高了工作效率。但随着查收查引工作量的增加以及需求的变化,现有的工具软件对查收查引的未来需求不具备灵活性和扩展性。
利用计算机语言有针对性地开发查收查引工具软件解决查收查引工作中的实际需求,包括论文数据的自动获取、自引他引的分析统计、批量自动生成收录报告等,能够有效地提高工作效率。这类软件开发工作量小,易于实现,能解决实际问题,但没有有效地形成与用户的交互以及查收查引工作各个环节的自动衔接。另外,没有建立自有数据库,对检索历史记录没有存储功能,存在重复检索的问题。
作者简介:邵燕霞(1976—),女,河北邯郸人,馆员,硕士;研究方向:文献计量分析及可视化。
*通信作者:李晓娟(1973—),女,河北唐山人,馆员,学士;研究方向:文献计量分析及可视化。
江苏科技信息
Jiangsu Science &Technology Information
基于Python的论文査收査引可视化软件设计与实现
摘要:使用Python 语言开发论文查收查引可视化软件是针对图书馆论文收录及引用检索业务开发的
一款软件,具有较强的实用价值。文章对该软件进行分析,整合了WoS 、ESI 、中科院JCR 期刊分区表3个数据库的数据,对检索结果进行计量分析并以可视化方式呈现,能够有效地提高工作效率和服务质量。关键词:查收查引;计量分析;可视化;Python 中图分类号:TP319文献标识码:A
表1
查收查引软件利用与开发的代表性研究
开发查收查引服务平台实现对查收查引服务流
程的管理,通过网络建立图书馆与用户的交互,用户在线提交检索申请、确认检索内容及获取检索报告,但对数据库的收录检索及自引他引自动统计等技术问题没有涉及,在一定程度上提高了查收查引服务效率。
开发查收查引系统是建立用户与图书馆的交互平台,实现用户在线提交检索申请,获取检索报告,系统自动进行论文收录检索,自引他引统计,自动生成查收查引报告,并建立自有数据库,存储检索记录等功能模块,在提高工作效率的同时能够有效地形成与用户的交互以及查收查引工作各个环节的自动衔接。查收查引系统一般采取B/S 结构,涉及网络、数据库等方面的技术整合,开发工作量较大。随着用户对深层次服务需求的日益增加,开发查收查引系统成为必然趋势,查收查引的服务内容也会逐步拓展,不仅需要高效快速地提供查收查引报告,还需要对查收查引结果数据进行计量分析并可视化呈现,为用户提供直观的关键信息。2设计流程
软件设计流程如图1
所示。
图1设计流程
2.1调研分析查收查引需求
目前,申报国家杰出青年基金、长江学者、院士、高校博士生导师资格等各项人才计划,通常要求填报论文在SCI 中的收录信息、施引文献中的他引频次、出版物在中科院JCR 期刊分区表中的期刊分区及影响因子,ESI 出现的次数及日期等信息,按申报人为第一作者、通信作者、第一及通信作者分别整理。
2.2筛选开发语言
Python 和R 均是开源语言,在数据分析和数据挖掘方面都有比较专业和全面的模块,很多常用的功
能,如文本挖掘、矩阵运算、可视化分析都有相应的标准库提供。国外使用Python 和R 在开发文献计量分析工具软件方面均有应用[23],国内在使用Python 开发查收查引自动化软件方面也进行了积极地探索。我们之所以选择Python ,部分原因是它是一种开放源代码的通用语言,代码易于阅读,具有解释型、面向对象、动态数据类型等特点,有庞大的标准库支持,且帮助文档完备,简单易学。尽管用Python 语言的脚本模式设计开发系统比用图形用户界面(Graphical User Interface ,GUI )更具挑战性,但它强大的标准库还是非常有吸引力的,而且对收录论文进行计量分析以可视化图形方式呈现给用户简单易行,编写少量代码即可实现查收查引及计量分析功能需求。开发环境我们选择64bit Anaconda f
or Windows Python 2.7,Anaconda 是一个软件包管理器。Anaconda 集成了超过1500个Python/R 数据计算相关的包,可以节省很多安装第三方包的时间;集成了Spyder 作为Python 语言的集成开发环境,可以高效地开发代码。2.3整合数据
数据来自3个数据库,包括Web of Science Core Collection 核心合集,基本科学指标数据库(Essential Science Indicators ,ESI ),中科院JCR 期刊分区表,这3个数据库提供了论文查收查引计量分析可视化的数据基础。
WoS 提供了论文收录的基本信息,软件从WoS 提供的全记录题录信息中提取了12个字段,字段含义如表2所示。
表2WoS 题录字段含义字段PT DT TC
UT 含义出版物类型
文献类型被引频次入藏号
字段AF
DE RP SO 含义作者全名作者关键词通信作者地址出版物名称
字段TI
CR PY SN 含义文献标题参考文献出版年ISSN
ESI 两个月更新一次数据,提供高被引及热点
论文列表,软件从ESI 提供的每一期数据中提取入藏号。
中科院JCR 期刊分区表提供了期刊的分区及影响因子。期刊分区及影响因子的数据相对固定,通过机构扩展华北电力大学(North China Electric Pow⁃er University ,NCEPU )检索WoS ,统计整理了华北电力大学科研人员发表的期刊列表数据,参考JCR 完善分区及影响因子数据。SCI 数据库中收录的文献著者名称可能会出现多种写法,影响查全率和查准率。因此,我们通过机构扩展检索WoS ,统计整理了华北电力大学科研人员在SCI 中姓名的各种写法列表数据。
数据可视化名词解释经过分析WoS ,ESI ,中科院JCR 期刊分区表提供的基础数据,采取内容相同的字段作为关联字
段连接3个数据库提供的数据,将基础数据整合在一
起。整合数据分两步完成,首先,根据UT 字段和ISSN 字段把ESI 和中科院JCR 期刊分区表的数据与WoS 数据整合。其次,逐条根据UT 字段检索记录,下载施引文献,对施引文献的他引频次统计进行整合。2.4分析数据
对整合后的数据生成检索者为第一作者、通信作者,第一及通信作者的统计数据列表,以可视化方式呈现数据计量分析结果,包括年度发文量、高被引论文、文献被引频次、JCR 分区、影响因子、著者合作、关键词词云、关键词共现、高被引文献的年度他引频次、施引文献的他引频次等内容。3关键问题分析
3.1提高查全率和查准率
对SCI 论文进行查收查引,由于作者名字存在多种写法,笔者采取从SCI 提供的全记录题录信息中提取存在著者名称信息的3个字段AU ,AF ,RP 。其中,AU 字段内容为作者缩写,存在写法一样而不是同一名作者的情况,所以要结合AF 字段,统计所有著者名称出现的频次,同一作者名字可能会出现多种写法,将同一作者的名字进行筛选汇总,对华北电力大学作者(以华北电力大学各院系师资队伍列表为准)构建
了一个名字列表文件。
例如:华北电力大学王江江老师姓名在SCI 中有5种写法:wang ,jiang-jiang ;wang ,jiangjiang ;wang ji⁃ang-jiang ;wang jiangjiang ;wang ,jj 3.2施引文献他引频次统计
施引文献中的他引频次统计存在不同的标准,可以将施引文献作者中不包含被检索作者的视为他引。施
引文献作者中不包括被检索作者及合作者的视为他引;施引文献作者中不包含检索文献第一作者的视为他引。本系统将他引设计为施引文献作者中不包含被检索作者。4实际应用效果
以华北电力大学王江江老师论文被SCI 收录情况为例,展示王江江为第一作者的论文统计及计量分析图形,包括论文列表(见图2)、4篇高被引论文出现的时间(见图3)、论文所在JCR 分区(见图4)、关键词词云(见图5)、作者合作关系(见图6),其中入藏号为WoS :000270637000004论文的年度他引频次(见图7)以及他引文献的被引频次(见图8),直观展示了
收录论文的关键信息。
图2
华北电力大学王江江老师论文列表截图
图3华北电力大学王江江老师4
篇高被引论文出现的时间
图4华北电力大学王江江老师论文所在JCR 分区
图5华北电力大学王江江老师关键词词云
图6华北电力大学王江江老师作者合作关系
图7华北电力大学王江江老师入藏号为WoS:000270637000004论文的年度他引频次
图8华北电力大学王江江老师他引文献的被引频次
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论