收稿日期:2019 11 19;修回日期:2019 12 27  基金项目:国家自然科学基金资助项目(61772081);科技创新服务能力建设—科研基地建设—北京实验室—国家经济安全预警工程北京实验室项目(
PXM2018_014224_000010);国家重点研发计划课题(2018YFB1402901)作者简介:侯晋升(1994 ),男,山西太原人,硕士研究生,主要研究方向为中文信息处理;张仰森(1962 ),男(通信作者),山西运城人,教授,博导,博士(后),主要研究方向为中文信息处理、人工智能(zhangyangsen@163.com);黄改娟(1964 ),女,山西运城人,高级实验师,主要研究方向为智能信息处理;段瑞雪(1984 ),女,河北石家庄人,讲师,博士,主要研究方向为自然语言处理、意图理解、问答系统.
基于多数据源的论文数据爬虫技术的实现及应用
侯晋升1,张仰森1,2 ,黄改娟1,段瑞雪1
,2
(1.北京信息科技大学智能信息处理研究所,北京100101;2.国家经济安全预警工程北京实验室,北京100044)摘 要:在使用单个数据源进行论文数据采集的过程中,存在着数据全面性不足、数据采集速度因网站访问频
率限制而受限等问题。针对这些问题,提出了一个基于多数据源的论文数据爬虫技术。首先,以知网、万方数据、维普网、超星期刊四大中文文献服务网站为数据源,针对检索关键词完成列表页数据的爬取与解析;然后通过任务调度策略,去除各数据源之间重复的数据,同时进行任务的均衡;最后采用多线程对各数据源进行论文详情信息的抓取、解析与入库,并构建网页进行检索与展示。实验表明,在单个网页爬取与解析速度相同的情况下,该技术能够更加全面、高效地完成论文信息采集任务,证实了该技术的有效性。关键词:网络爬虫;多源数据源;多线程;信息处理;数据展示中图分类号:TP391.1   文献标志码:A   文章编号:1001 3695(2021)02 037 0517 05doi
:10.19734/j.issn.1001 3695.2019.11.0671Implementationandapplicationofpaperdatacrawlertechnology
basedonmultipledatasources
HouJinsheng1,ZhangYangsen1,2 ,HuangGaijuan1,DuanRuixue
1,2
(1.InstituteofIntelligentInformation,BeijingInformationScience&TechnologyUniversity,Beijing100101,China;2.NationalEconomicSecurityEarlyWarningEngineeringBeijingLaboratory,Beijing100044,China)
Abstract:Therearemanyproblemsintheprocessofcollectingpaperdatausingsingledatasource,suchasinsufficientdata
comprehensivenessandlimiteddatacollectionspeedduetowebsiteaccessfrequencylimitation.Aimingattheseproblems
,thispaperproposedapaperdatacrawlingtechnologyformulti datasources.Firstly,itusedthefourChinesedocumentserviceweb sites HowNet,WanfangData,Weipu,andChaoxingasdatasources,completedthetaskofcrawlingandparsinglistpagedata
forthesearchkeywords.Thenitusedthetaskschedulingstrategytoremoverepeateddataandbalancethetasks.Finally
,itusedmulti threadsforeachdatasourcetocrawl,parseandstorethedetailinformationofthepapers,andbuiltawebsiteforsearchanddisplay.Experimentsshowthatunderthesamecrawlingandparsingspeed,thistechnologycancompletethepaper
informationcollectiontaskmorecomprehensivelyandefficiently
,whichprovestheeffectivenessofthistechnology.Keywords:Webcrawler;multipledatasource;multithreading;informationprocessing;datademonstration
0 引言
大数据技术从兴起之初到日益成熟,在各行各业都发挥出巨大的作用;借着大数据的东风而再一次焕发出生命力的人工智能领域近些年更是取得了一个又一个的重大突破,在科研与应用方面创造出了巨大的价值,人们逐渐意识到数据已是当下最重要的资源。
在互联网高度发达的今天,数据的获取已经变得非常便捷。然而,互联网上海量的信息和平台也会对人们造成困扰。以论文信息为例,网络上的几大论文数据网站所拥有的资源并不完全相同,用户在查文章时,如果只检索单个网站无法检索出所有高价值的论文,如果检索多个网站,用户会在大量检索结果的筛选与比对中耗费时间与精力。
论文数据中蕴涵着巨大的价值,结合数据挖掘与机器学习技术,能够从中分析出各学科领域的研究现状、研究热点、趋势变化等信息,也可以用来评估各机构和学者的科研水平与实力。因此,为论文信息的获取提供一个全面、高效的爬虫方法是非常必要的。
鉴于此,本文创造性地提出了一种面向多数据源的论文信息爬虫技术,采用多数据源并行的方式使用爬虫程序进行论文信息的抓取,针对性地设计了任务调度算法进行程序流程的优化,实现了将不同数据源的论文数据进行全面、高效抓取的目的。
1 研究现状
目前针对网络上数据的采集,主要是使用网络爬虫技术来实现的。自从1993年Gray实现了首个互联网爬虫Wanders至今,工业界与学术界对于网络爬虫系统的研究从未间断,人们都在追求拥有更高数据爬取效率、更强稳定性的网络爬虫系统[1~4]。邵晓文[5]使用增加程序的线程数量的方式,设计了一种基于Java多线程的并发网络爬虫系统,结合布隆过滤器和
Redis缓存技术,实现网络数据的高效采集。王淑芬等人[6]
设计实现了一种分布式主题爬虫框架,解决了Hadoop分布式计算平台不适合部署于广域网的问题,利用消息中间件实现分布式可靠通信,利用分布式系统提高爬虫系统的效率。在国外的
相关研究中,Kausar等人[7]在爬虫系统的实际中引入了移动
第38卷第2期2021年2月 计算机应用研究
ApplicationResearchofComputersVol 38No 2
Feb.2021
代理技术,使得网页源码的分析工作可以在本地完成而无须到远程工作,从而提高了爬虫系统的整体效率。Kumar等人[8]则针对爬虫算法进行设计,采用基于查询的方式将关键词传递到URL对应网站的搜索查询界面,旨在最快地获取用户最关心的链接。
在论文数据的采集与应用方面,陈浩[9]设计了一种基于协同过滤算法的论文推荐系统,使用分布式爬虫系统对论文信息进行抓取,然后使用定制的协同过滤算法计算后将论文推荐给用户。杨超凡等人[10]爬取了ACL、ACMMM、ICML、KDD、SIGIR五个会议的收录论文,对其进行统计分析后,归纳出了信息检索领域的研究热点与研究趋势变化。李斌斌等人[11]以知网为数据源,将爬取到的论文数据使用SPSS等软件进行分析后,进行论文重复发表问题的研究。
然而,关于多数据源融合的论文爬虫技术以及应用方面,国内外的相关研究较少。因此,本文的工作是具有开创性和引领性的。
2 关键问题及解决方法
2 1 针对多数据源的任务分配调度问题
本方法以关键词为输入进行论文信息的检索与采集。同一个关键词在单一数据源上的检索结果不会出现重复问题,然而在面向多数据源时,检索的结果会存在着大量的重复,如果将所有的任务不作处理便全部进行后续论文详情的抓取,势必会做大量的重复工作;而如果只是进行简单的按任务名去重,则可能会导致各数据源未分配的任务量极不均衡。例如,针对任务关键词K,数据源A与B均存在1000个检索结果,其中有800个是重复的,但是数据源A的检索结果先进入程序,而后数据源B的检索结果进入程序时,这800个任务直接被过滤掉了,此时A的待处理队列中有1000个任务,而B的待处
理队列只有200个任务,面向数据源B的处理线程在处理完200个任务后只能等待,虽然A队列中有800个任务它也可以处理。这样亦会造成资源的浪费,无法充分地发挥出多数据源的优势。
针对这一问题,本文设计了以下策略进行解决:
a)使用一种特殊的去重算法进行数据的去重。利用HashSet作为存储数据结构,使用针对论文基础信息设计的实体类作为存储的元素,该实体类包含一个代表数据源的source成员变量。在一个新任务进入程序后,按照先查询它是否存在于当前数据集合中,若不存在则直接添加;若已存在,则取出该元素,在它的source字段中加入新的数据源后再次存入。在这一步去重完成后,所有论文任务在任务集合中出现一次,并且携带了可以对它进行处理的所有数据源信息。
b)通过任务调度算法将待处理的任务分配到四个队列中,尽可能地保证每个数据源的待下载队列都有着相对均衡的任务量。本文选择采用如下有效的算法:
a)从待处理任务集合中取出任务a。
b)读取任务a的可用数据源集合s。
c)逐一查看集合s中各数据源当前的待下载队列大小。
d)选择待下载队列大小最小的数据源,将任务a添加到该数据源的待下载队列末尾。
图1是针对关键词“周志华”采用任务分配调度策略进行任务分配前后的各队列任务量,可以看到本算法可以在去重的前提下有效地均衡并减少各队列的任务。
2 2 多数据源之间的数据异构问题
不同的数据源网站所能抓取到的论文信息字段并不完全一致,而本文需要将论文信息进行统一存储与展示,因此,从四个数据源网站的异构信息中提取出共有的、重要的信息作为统一的数据字段,设计出如表1所示的数据表结构。
!"##
!###
$"%#
&%%%
'"##
(%%%
"%%
%
(")%
)*+
'!!*
&!,*
)-"
'$))
$)"!
!"#$%&'(")*+,
-./
-
.0
'*!!
图1 任务调度算法效果图
Fig.1 Diagramoftaskschedulingalgorithm’seffect
表1 统一字段数据表结构
Tab.1 Unifiedfielddatatablestructure
字段名称字段类型字段含义
idint论文在数据库中的IDpapername_chvarchar论文中文题目
papername_envarchar论文英文题目abs_chtext论文中文摘要
authorvarchar论文作者keyword_chvarchar论文中文关键词
author_unitvarchar作者单位
journal_chvarchar期刊中文名
foundationvarchar基金项目
datavarchar发表日期
add_timetimestamp入库时间
2 3 论文信息入库前的去重问题
由于一篇论文可能对应着多个关键词,所以就算使用不重复的关键词列表进行抓取,也会遇到大量论文被重复抓取到的问题。随着数据库中的数据越来越多,数据重复的问题会越来越严重。因此,在数据入库前进行去重工作便成了必不可少的一步。
针对数据去重的问题,虽然可以利用给数据表建立唯一索引来达到去重的目的,但这样做的缺点是后期大量重复的数据依旧会尝试进行入库操作,在面对较大数据量(百万级)时会明显降低系统的运行速度,并且为数据库带来较大负担。
本方法选用了更为合适的布隆过滤器来完成去重任务[12]。如果想要判断一个元素是不是在一个集合里,一般想到的是将所有元素保存起来,然后通过比较确定。链表、树等等数据结构都是这种思路。
但是随着集合中元素的增加,需要的存储空间越来越大,检索速度也越来越慢。不过还有一种散列表数据结构,它可以通过一个hash函数将一个元素映射成一个位阵列中的若干个点,这样一来,只要查看元素对应的这些点是否都是1就可以知道集合中有没有它了。布隆过滤器便是使用散列思想实现的一种过滤算法,它实际上是一个很长的二进制向量和一系列随机映射函数。在处理规模较大的数据集时,布隆过滤器有着很大的优势,它需要的存储空间和写入/查询时间为常数,不会随数据的越来越多而降低使用效率以及占用更多的额外空间,十分适合本业务场景。虽然布隆过滤器在数据量增长到很大的时候会出现一定的误差,但这些很小的判断误差是可以接受的。而自己编写的布隆过滤器类可以通过实现Java的序列化接口实现持久化功能,可以将该类写成文件来进行当前状态的保存,在每次程序关闭或异常退出前执行序列化流程,便可以避免程序中断时去重信息的丢失。
3 系统设计及其实现技术
本文所要实现的系统可以划分为四个模块:任务组织管理模块、网页源码抓取模块、论文信息抽取模块以及网页检索展示模块。系统架构设计如图2所示。
·
·计算机应用研究 第38卷
图2 系统整体架构
Fig.2 Systemarchitecture
3 1 程序运行流程设计
系统的整体运行流程设计如下:
a)从用户的检索输入或关键词配置文件中得到待抓取任务的关键词,将其组织成任务发送到网页源码抓取模块的待抓取关键词队列。
b)将待抓取的任务分别按规则拼接为四个数据源网站的检索结果页面URL,并添加到指定的待下载任务队列中。
c)使用网页源码下载器从待下载任务队列中取得任务,并进行源码的下载。
d)网页源码收集分类器从源码下载器的完成队列中取出网页源码,并根据标志将源码分成论文详情页源码和检索结果
页源码两种。检索结果源码的后续处理转步骤e
),论文详情页源码的后续处理转步骤g
)。e)将检索结果页源码中的所有论文信息解析出来,并组
织为任务发送给论文详情页任务调度器,转步骤f
)(检索结果源码以列表的形式包含了所有检索结果的大致信息,但这些信息仅有论文名、作者、来源
等粗略信息,还需要进一步对论文的详情页进行抓取与解析。以知网为例,其检索结果页面如图3所示)
图3 列表信息页面示例图
Fig.3 Examplediagramoflistinformationpage
f)论文详情页任务调度器接收到任务后,使用分配算法将
任务均衡地分发到不同的数据源待下载队列。
g)针对不同的数据源使用特定的规则将论文信息从论文详情页源码中解析出来(以万方数据为例,论文详情页中包含
了所需要的论文相关信息,如图4所示)
。h)将论文信息结果存储进数据库,如果本次任务是由用户的检索行为触发则还应将结果反馈至前台展示界面。3 2 网页URL的构建与分析技术
URL(统一资源定义符)是互联网上标准资源的地址,URL
包含了所要访问的网站、访问方式、访问参数等重要信息。通
过对四个数据源网站特定访问请求的收集与分析,可以总结出每个网站特定业务的URL格式,只需要将自己的参数(如检索关键词)拼接进去便可得到所需请求,后续的源码抓取模块可
以直接根据这些自动生成的U
RL
请求得到源码。图4 详情信息页面例图
Fig.4 Examplediagramofdetailspage
Ajax技术是一种创建快速动态网页的技术,由于使用
Ajax技术能够通过后台与服务器的少量数据交换即实现网页的异步更新(这意味着可以在不重新加载整个网页的情况下对网页的某部分进行更新),所以目前很多数据展示量较大的
网站都会选择该技术来进行构建[13,14]
在本系统所选取的四大中文文献数据网站中,万方数据、超星期刊以及维普网在论文检索结果的显示中没有使用数据异步更新策略,使用浏览器直接访问的URL所对应的网页中直接包含了所需要的论文信息数据,因此可以直接对这三个网站检索页URL进行关键词替换来得到所需要的URL以进行
后续访问。知网在检索结果的数据展示中使用了A
jax技术,其论文信息数据是通过异步请求加载到前台页面进行显示的,无法在原请求中到具体的
论文数据。借助浏览器的开发者工具,可以捕捉到打开网页时网站进行的所有请求,通过请求的分析便可以得到包含所需数据的异步请求URL。
需要特别注意的是,URL在网络上传输时通常会进行URL编码,因此在构建URL时需要对关键词进行URL编码。
使用Java语言进行开发时,可以借助Java.net.URLEncoder类中的encode方法实现对关键词的URL编码。3 3 网页源码下载器及源码解析实现技术
网页源码下载器由四个子线程构成,分别对应知网、万方数据、超星期刊、维普网四个不同的数据源。虽然网页源码的抓取使用的函数是统一的,但相比于只使用单线程来说,划分成四线程并行处理有着以下两点好处:
a)提高了抓取效率。网站为了缓解自身服务器的负载压
力往往会限制单个I
P的访问频率,因此在访问时必须设置访问间隔。如果使用单线程,必须将该访问间隔设置成四个数据源中最大的访问间隔才能保证程序的稳定性,这样在时间开销上造成了极大的浪费。如果划分为四个子线程,可以针对不同的网站设置特定的访问间隔、响应超时时间等参数,四个线程并行运作、互不影响,
极大地提高了源码抓取效率。
b)增强了程序的健壮性。单线程运作在处理突发情况时的表现较差。例如,一个数据源网站突然出了问题,对其进行源码抓取时会全部耗费超时时长,而队列中的其他任务只能等待,极大地影响了程序整体的运行效率。在分为四个子线程运作后,一个数据源出现问题并不会影响其他数据源任务的抓取速度,对整体的影响降到了最低。
程序的网页源码下载器基于J
ava语言开发,Java语言自身对于多线程有着良好的支持。在开发过程中,通过对thread
·915·第2期侯晋升,等:基于多数据源的论文数据爬虫技术的实现及应用   
父类的继承来实现多线程。程序运行准备阶段,四个子线程并发启动,各自监视对应的待抓取任务队列,当队列中存在任务时,循环取出任务进行处理,最后将抓取回的源码放至统一的待处理队列中,由网页源码收集分类器取出作后续处理。
对于网页源码抓取工具,本文选择使用H
ttpClient。HttpClient是ApacheJakartaCommon下的子项目,
可以用来提供高效的、最新的、功能丰富的支持HTTP的客户端编程工具包。HttpClient提供了GET和POST等常用请求的访问方法,并且可以通过设置响应时间参数来限制单次请求的访问时长,防止网络波动或服务器问题所导致的卡死现象。
在网页源码的解析方面,本文选择使用JSoup技术实现[15]
。JSoup是一种基于Java语言的HTML解析器,可以使
用类似于J
Query的操作方式从源码中抽取数据。对于JSoup不好抽取或抽取不精确的字段,本文使用针对性的提取规则作为辅助,最终程序可以高效精确提取出所需要的所有字段信息。
3 4 论文检索及展示页面技术
本文采用JSP+Servlet技术进行网页的构建,并使用CSS进行页面的美化,实现了简洁美观的信息展示页面,将所有数据源的爬取结果统一进行展示,极大地方便了用户对于查询结果的查与比对。检索结果展示界面如图5所示,论文详细信息展示界面如图6
所示。
图5 检索结果展示界面
Fig.5 Searchresultdisplayinterfac
图6 论文详细信息展示界面
Fig.6 Paperdetaildisplayinterface
4 实验结果及分析
系统的测试机器硬件配置为:第七代酷睿i7 7700HQ@
2 80GHz双核CPU、16GB内存,使用Windows10专业版操作
系统。整个系统使用J
ava语言开发完成,开发平台为EclipseLunaServiceRelease2(4.4.2),Web服务器选择ApacheTomcat8 5 31,数据库选择使用MySQL5.6.36。
在保证网络通信良好、使用相同的网页爬取函数与解析函数的情况下,本文使用单数据源爬虫程序与多源融合系统进行爬取数据全面性与爬取效率的比较。挑选了“循环神经网络”与“周志华”两个关键词,每个关键词进行五组实验。
不同数据源的论文信息爬取数据量对比如下,图7是关键词“循环神经网络”的爬取数据量对比图,图8是关键词“周志
华”的爬取数据量对比图。可以看出,相比于只使用单源数据源的爬虫系统来说,本文所采用的基于多数据源的论文数据爬虫技术在论文数据爬取任务中得到了数量更多的结果,说明本技术能够更好地保障论文查询结果的全面性。
在将关键词所有检索结果爬取完全的前提条件下,采用单数据源爬虫的系统与使用多源融合爬虫技术的系统的运行时
间对比如下,图9是关键词“
循环神经网络”的爬取时间对比图,图10是关键词“周志华”爬取时间对比图。可以看出,本技术由于多线程协作运行,并且采用了针对多数据源任务的均衡分配调度策略,在爬取效率上有着更加优异的表现,能够在更短的时间内完成数据爬取任务。
!""""#"""$"""%"""&"""'"""(""")"""*"""!""""
)(#&
()!#
!"(%
*!""
数据结构与算法论文$&!)
!
"
#$%&
'("
)*+,
-./0
&"""'"""("""
)"""*"""!""""
!'#"!))$
*)($
*#')
'!"(
!
"
#$%&
'(")*+,-./0
图7 关键词“循环神经网络”
数据量对比图Fig.7 Diagramofkeywords“circularneuralnetwork”datavolumecomparison
图8 关键词“周志华”
数据量对比图Fig.8 Diagramofkeywords
“ZhouZhihua”datavolumecomparison
!""""#""""
$%"""&%%%%'""""(%%%%
%
!%%%%)%%%%
$%%%%&%%%%*+%%%(%%%%
%
!"#$,-
)(.)*
$(!$(
!"#$,-
)%../
&%$%0
%&'()*
+(,-)*
%&'()*
+(,-)*
图9 关键词“循环神经网络”
爬取时间对比图Fig.9 Diagramofkeywords“circularneuralnetwork”crawltimecomparison图10 关键词“周志华”
爬取时间对比图Fig.10 Diagramofkeywords
“ZhouZhihua”crawltimecomparison
5 结束语
本文提出了一种面向知网、万方数据、超星期刊、维普网四
个中文文献数据库的多源论文数据爬虫技术,旨在解决各网站数据此有彼无的问题,使学术人员能够更加全面、方便地查论文信息,同时提供高效的批量数据采集功能,将其应用于构建论文信息数据库,可为后续的数据挖掘、机器学习等工作提供宝贵的数据资源。
程序在接受关键词后启动数据爬虫,可以通过两种途径输入关键词:通过关键词配置文件的设置来进行批量关键词论文数据抓取;通过用户在检索界面的查询关键词输入来进行用户指定论文数据的抓取。在爬取任务执行前,程序根据规则使用关键词或论文基本信息拼接URL,并将其添加至待抓取队列;爬取任务执行时,程序分四个子爬取线程,分别从已经经过任务调度算法均衡的四个待爬取队列中取出任务进行源码抓取;在爬取任务执行后,程序使用JSoup技术从抓取回的网页源码中解析出所需要的字段,将结果存储进数据库中,实现论文信息数据库的构建工作;若本任务是用户的论文检索请求,采用JSP+Servlet技术构建出简洁美观的Web页面并将数据展示给用户,满足用户的论文信息查询请求。实验表明,相比于单数据源的爬虫系统来说,本方法能够提供更加高效且全面的论文爬取功能,并且在服务用户的检索需求时可以快速响应并且将各数据源的查询结果融合展示在用户面前,可以使用户无须
·025·计算机应用研究 第38卷
对每个数据源的检索结果进行甄别与比对,极大地方便了用户的使用,节约了用户的时间。
本技术现阶段还存在着很多不足。例如,目前只提供了以关键词为输入的检索方式,还不能支持多条件叠加的高级检索功能;目前只能配置关键词列表及借助用户的检索行为来进行数据库的更新与扩充,还没有一种高效的漫爬虫策略来自动地对论文进行发现与信息下载;目前的数据源只有四大中文文献网站,对英文论文数据源的支持较弱;这些都是在下一步工作中需要研究与改进的地方。
参考文献:
[1]刘金红,陆余良.主题网络爬虫研究综述[J].计算机应用研究,2007,24(10):26 29,47.(LiuJinhong,LuYuliang.Surveyontopic focusedWebcrawler[J].ApplicationResearchofCompu ters,2007,24(10):26 29,47.)
[2]潘晓英,陈柳,余慧敏,等.主题爬虫技术研究综述[J].计算机应用研究,2020,37(4):961 965.(PanXiaoying,ChenLiu,YuHuimin,etal.Surveyonresearchoftopiccrawlingtechnique[J].Ap plicationResearchofComputers,2020,37(4):961 965.)[3]孙立伟,何国辉,吴礼发.网络爬虫技术的研究[J].电脑知识与技术,2010,6(15):4112 4115.(SunLiwei,HeGuoqing,WuLifa.ResearchontheWebcrawler[J].ComputerKnowledgeandTech nology,2010,6(15):4112 4115.)
[4]周德懋,李舟军.高性能网络爬虫:研究综述[J].计算机科学,2009,36(8):26 29,53.(ZhouDemao,LiZhoujun.Surveyofhigh perf
ormanceWebcrawler[J].ComputerScience,2009,36(8):26 29,53.)
[5]邵晓文.多线程并发网络爬虫的设计与实现[J].现代计算机:专业版,2019(1):97 100.(ShaoXiaowen.Designandimplementationofmulti threadedconcurrentWebcrawler[J].ModernComputer,2019(1):97 100.)
[6]王淑芬,高军礼,邹普,等.基于Hadoop的广域网分布式主题爬虫系统框架[J].计算机工程与科学,2015,37(4):670 675.(WangShufen,GaoJunli,ZouPu,etal.AframeworkofWANdistributedtopiccrawlingsystembasedonHadoop[J].ComputerEngineering&Science,2015,37(4):670 675.)[7]KausarMA,DhakaVS,SinghSK.WebcrawlerbasedonmobileagentandJavaAglets[J].InternationalJournalofInformationTechnologyandComputerScience,2013,5(10):85 91.[8]KumarM,BindalA,GautamR,etal.KeywordquerybasedfocusedWebcrawler[J].ProcediaComputerSc
ience,2018,125:584 590.
[9]陈浩.基于协同过滤算法的论文推荐系统研究与设计[D].武汉:武汉科技大学,2018.(ChenHao.Researchanddesignofapubli cationrecommendationsystembasedoncollaborativefiltering[D].Wuhan:WuhanUniversityofScienceandTechnology,2018.)
[10]杨超凡,邓仲华,彭鑫,等.近5年信息检索的研究热点与发展趋势综述———基于相关会议论文的分析[J].数据分析与知识发现,2017,1(7):35 43.(YangChaofan,DengZhonghua,PengXin,etal.Reviewofinformationretrievalresearch:casestudyofconferencepapers[J].DataAnalysisandKnowledgeDiscovery,2017,1(7):35 43.)
[11]李斌斌,钟鸣宇,刘宇.论文重复发表的实证研究———以CNKI数据库农业经济领域为例[J].情报探索,2018(9):39 44.(LiBin bin,ZhongMingyu,LiuYu.Empiricalresearchonredundantpublica tion:
casestudyoftheagriculturaleconomicfieldinCNKIdatabase[J].InformationResearch,2018(9):39 44.)
[12]杨力.布隆算法在网络爬虫中的应用[J].电子世界,2019(3):156,158.(YangLi.ApplicationofBloomalgorithminWebcrawlers[J].ElectronicsWorld,2019(3):156,158.)
[13]游丽贞,郭宇春,李纯喜.Ajax引擎的原理和应用[J].微计算机信息,2006,22(6):205 207.(YouLizhen,GuoYuchun,LiChunxi.TheprincipleandapplicationofAjaxengine[J].Microcom puterInformation,2006,22(6):205 207.)
[14]夏天.Ajax站点数据采集研究综述[J].现代图书情报技术,2010(3):52 57.(XiaTian.OverviewofresearchondatacollectionfromAjaxsites[J].NewTechnologyofLibraryandInformationSer vice,2010(3):52 57.)
[15]毛凯.基于JSoup的通用网页采集系统的设计与实现[D].成都:电子科技大学,20
15.(MaoKai.DesignanddevelopacommonHTMLcontentparsesystembasedonJSoup[D].Chengdu:UniversityofElectronicScienceandTechnologyofChina,2015.)
(上接第516页)
[16]ParkGJ,LeeTH,LeeKH,etal.Robustdesign:anoverview[J].AIAAJournal,2006,44(1):181 191.
[17]冯泽彪,汪建均.考虑响应共变特性的多响应稳健参数设计[J].系统工程与电子技术,2019,41(9):2048 2057.(FengZebiao,WangJianjun.Multi responserobustparameterdesignbasedoncova riantcharacteristicsofmodelresponses[J].SystemsEngineeringandElectronics,2019,41(9):2048 2057.)
[18]王文强,彭旭东,梁杨杨,等.基于田口方法的中低压油封稳健性设计[J].流体机械,2019,47(2):51 57,64.(WangWenqiang,PengXudong,Li
angYangyang,etal.Robustdesignofoilsealundermiddle lowpressurebyTaguchimethod[J].FluidMachinery,2019,47(2):51 57,64.)
[19]GuptaTB,LatayeDH,KurwadkarST.Adsorptionofcrystalvioletdye:parameteroptimizationusingTaguchi’sexperimentalmethodolo gy[M]//VenkataRR,TalerJ.Advancedengineeringoptimizationthroughintelligenttechniques.Singapore:Springer,2020:653 665.[20]JohnWT.Sectionofmathematicsandengineering:someselectedquickandeasymethodsofstatisticalanalysis[J].AnnalsoftheNewYorkAcademyofSciences,1953,16(2):88 97.
[21]McnemarQ.Noteonthesamplingerrorofthedifferencebetweencor relatedproportionsorpercentages[J].Psychometrika,1947,12(2):153 157.
[22]FinkelsteinL,GabrilovichE,MatiasY,etal.Placingsearchincon
text:theconceptrevisited[J].ACMTransonInformationSys tems,2002,20(1):116 131.
[23]BruniE,BoledaG,BaroniM,etal.Distributionalsemanticsintechni color[C]//Procofthe50thAnnualMeetingoftheAssociationforComputationalLinguistics.[S.l.]:AssociationforComputationalLin guistics,2012:136 145.
[24]ZeschT,MullerC,GurevychI.UsingWiktionaryforcomputingse manticrelatedness[C]//Procofthe23rdNationalConferenceonAr tificialIntelligence.Chicago:AAAIPress,2008:861 866.
[25]AgirreE,AlfonsecaE,HallK,etal.Astudyonsimilarityandrelated nessusingdistributionalandwo
rdnet basedapproaches[C]//ProcofHumanLanguageTechnologies:AnnualConferenceoftheNorthAmericanChapteroftheAssociationforComputationalLinguistics.[S.l.]:AssociationforComputationalLinguistics,2009:19 27.[26]RadinskyK,AgichteinE,GabrilovichE,etal.Awordatatime:com putingwordrelatednessusingtemporalsemanticanalysis[C]//Procofthe20thInternationalConferenceonWorldWideWeb.NewYork:ACMPress,2011:337 346.
[27]LuongT,SocherR,ManningC.Betterwordrepresentationswithre cursiveneuralnetworksformorphology[C]//Procofthe17thConfe renceonComputationalNaturalLanguageLearning.[S.l.]:Associa tionforComputationalLinguistics,2013:104 113.
[28]HillF,ReichartR,KorhonenA.SimLex 999:evaluatingsemanticmodelswith(genuine)similarityest
imation[J].ComputationalLin guistics,2015,41(4):665 695.
·
·
第2期侯晋升,等:基于多数据源的论文数据爬虫技术的实现及应用   

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。