从WOS地址字段提取二级机构数据的半自动数据清洗方法--688IT编程网

从WOS地址字段提取二级机构数据的半自动数据清洗方法

何春建

【摘要】各高校都需要统计本校各个二级机构Web of Science(WOS)发文情况,论文提出一种基于正则表达式的半自动数据清洗方法,可从WOS地址字段中提取出发文机构排名、所属二级机构名称以及对应作者,并以2015年南京师范大学WOS发文统计为例,进行实证研究,分析出各院系发文情况和作者发文情况.

【期刊名称】《新世纪图书馆》

【年(卷),期】2017(000)008

【总页数】4页(P56-58,70)

【关键词】二级机构;正则表达式;数据清洗;WOS地址字段;科技查新

【作者】何春建

【作者单位】南京师范大学图书馆科技查新站江苏南京,210023

【正文语种】中文

【中图分类】G250.78

Web of Science(WOS）不仅是世界范围内最权威的科技文献索引工具之一, 也是科研评价的一种依据。科研机构被WOS收录的发文总量及被引用次数,反映整个机构的科研, 尤其是基础研究的水平。各高校均需对本校WOS发文进行统计，这些WOS论文的收录及被引情况是机构内部重要的考核指标。而在统计这些WOS论文的时候，需要将检出的所有文献全部准确地划分到各个二级机构，最终归属到具体作者，以便主管部门全面了解各院系科研情况并统计考核教职工的科研工作。然而直接从WOS数据库下载的数据中没有专门的二级机构字段。二级机构的信息包含在地址字段中，所以需要对地址字段进行数据清洗，以便准确快速地获取二级机构的信息。

梁桂英等[1]研究了如何构建非特异性机构论文检索式，丁海德等[2]研究了地址信息著录差异与错误分析，苗艳荣、房[3-4]研究构建合适的机构检索式，兼顾查准率与查全率，这些文献的焦点均是查准查全一级机构发文，没有关注二级机构。张晋辉等[5]提出一种SCI地址字段数据清洗方法，也不以二级机构为研究对象。张红燕、胡小洋等[6-7]提到了高

校WOS发文的院系分布情况，但没有提及是如何进行文献清洗的。刘贤玉[8]报道了一种快速统计学校中二级机构学院论文的方法。本文通过分析、对比、拟选取WOS中的地址字段为研究对象，利用正则表达式对该字段进行文本处理，清洗数据后可获得二级机构变名，再辅以人工识别将得到的二级机构变名划归到具体的学院。本文不预设二级机构的变名，不依赖于对作者的熟悉程度，最大程度地降低了人工排查的工作量，使得数据统计既快捷又准确。

1.1 数据收集

检索策略及方法：在WOS数据库的检索页面中的地址栏输入“Nanjing normal univ”，在日期范围内输入“2015—2015”。选择数据SCI-EXPANDED、SSCI、A&HCI、CPCI-S、 CPCI-SSH，检索时间2016年1月10日，共计检索出982条记录。

将检索到的文献记录选择“保存为其他文件格式”，选择记录内容为“全记录”，文件格式为“制表符分隔(win）”分批选择“1-500”“501-982”，分批将检索到的记录下载并合并，获得982条数据记录，并以其中的地址字段(C1)为研究对象。

1.2 数据清洗

在2008年系统升级后，WOS数据库的地址字段就比较规范，下面是其中一条典型的地址字段记录：[Lu, Si-Yuan; Zhou, Xing-Xing; Zhang, Guang-Shuai] Nanjing Normal Univ, Sch Comp Sci & Technol, Nanjing 210023, Jiangsu, Peoples R China; [Wei, Ling] Shanghai Jiao Tong Univ, Sch Elect Informat & Elect Engn, Shanghai 200030, Peoples R China。

WOS的地址字段可以归纳为下面的模型：[authors(N,1)] address(N,1); …[authors(N,x)] address(N,x);…[authors(N,Y)] address(N,Y); 其中authors(N,x)是第N条记录的第x个作者，address(N,x)是第N条记录的第x个作者的共同署名机构。

将得到的数据记录中的C1字段复制到文本处理软件Emeditor中，利用正则表达式，查“; \[”，替换为“; /t[”。处理后的文本记录可以表达为：[authors(N,1)] address(N,1)；…[authors(N,x)] address(N,x);…[authors(N,Y)] address(N,Y); 再将处理后的数据复制到excel中，我们可以获得第N条记录中第x个作者和机构信息为C1(N,x)=[authors(N,x)] address(N,x);再对C1(N,x)分析，利用正则表达式，查“] ”，并替换为“]/t”，进而可以得到authors(N,x)以及相应的address (N,x)。通过上述的文本处理和excel处理，就获得了所有记录的所有排序的署名作者及相应的署名作者机构信息。

在excel中对address(N, x) 字段分析，依次遍历x=1…Y，判断address(N, x)是否包含“nanjing normal univ”, 假设address(N, k)是第N条记录中第一个包含“nanjing normal univ”的地址信息，记录jg (N)=k，taget(N)= address(N, k)，authors(N)= authors(N, k)。在进行上述数据分析时发现有一条记录的整个C1字段中不包含“nanjing normal univ”，经研究发现这条记录之所以被检出，是因为在通讯作者字段(RP)中出现了“nanjing normal univ”。如果是第M条记录的CI字段中没有出现nanjing normal univ，则假定jg (M)=0，taget(M)=null。将address(N,x), N=1…982，进行遍历处理，数据清洗后获得三组数列jg (N)、taget(N)、 authors(N)。jg (N)是南京师范大学（以下简称“我校”）在第N篇论文的机构排名，taget(N)是我校的具体署名地址信息，authors(N)是对应的作者。

正则表达式提取中文2.1 一级机构分析

对jg (N)分析可以了解982条记录中不同署名排序的发文情况。我校发表的WOS论文中第一署名机构发文573篇，占比58.4%，非第一作者机构发文409篇。

对非第一作者机构的发文部分，再分析它们的address(N,1)即第一署名机构，可知我校与144家机构合作，共发表论文419篇。其中发文1篇的97家，发文2-3篇的22家。发文4篇以

上的25家机构共计发文259篇，占南京师范大学非第一机构合作论文数的61.8%，见表1。从表1可知我校的主要合作机构以中科院和江苏高校为主，省外合作以及国际合作的论文较少。

2.2 二级机构分析

从taget(N)数列的获取方法可知：如果我校有多个二级机构同时参与该论文，只取排序靠前的那个二级机构。将taget(N)数列在excel中利用分类汇总显示署名机构共有467种不同写法，直接分析taget(N)数列工作量很大。taget(N)数列中包含了二级机构的信息，可以把它们提取出来。

首先来看一条典型的taget(N)的信息：“Nanjing Normal Univ, Sch Math Sci, Inst Math, Nanjing 210023, Jiangsu, Peoples R China”。从上述格式可以看出，署名机构的一般格式中会包含“南京师范大学，二级机构名称, 邮编，省, 国家”等信息。上述信息中我们关心的其实只有二级结构名称如“Sch Math Sci”，通过这个信息我们就可以判断这条记录属于南京师范大学数学科学学院。我校的二级机构基本上是某学院、某系、某实验室、江苏省某重点研究中心等，而这些二级机构在taget(N)中大多以sch、coll、fac、inst、dept、lab、key

、ctr、jiangsu开头，也有作者署名时书写不规范导致有少部分记录的二级机构名以sch、coll、fac、inst、dept、lab、ctr为结尾。利用这个规律，可通过对taget(N)的处理获得对应的二级机构名称。将taget(N)数列复制到文本处理软件“Emeditor”中，利用正则表达式，反复查“(.*),[ ]?((coll|sch|dept|ct r|lab|inst|fac|Jiangsu |key)[^,]*)(.*)”，并替换为“\1\t\2\t\4”，通过这个步骤可以处理所有开头是coll、sch、dept、ctr、lab、inst、fac、key、Jiangsu的二级机构名称，再反复查“(, )([^,]*(coll|sch|dept|ctr|lab|inst|fac)),”并替换为“\1\t\2\t”，通过这个步骤可以处理所有结尾是“coll、sch、dept、ctr、lab、inst、fac”的二级机构。通过上述两次查替换可以把taget(N)数列中所有的二级机构前后均加上制表符，再把处理后的数据复制到excel中，就可以获得二级机构数列inst(N)，其中有49条记录的inst(N)为空，是因为taget(N)中不包含任何二级机构信息，其署名信息如：“Nanjing Normal Univ, Nanjing 210023, Jiangsu, Peoples R China”。

688IT编程网

从WOS地址字段提取二级机构数据的半自动数据清洗方法

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

从WOS地址字段提取二级机构数据的半自动数据清洗方法

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式