基于网络爬虫的新闻网站自动生成系统的设计与实现--688IT编程网

网络天地

• Network World

18 •电子技术与软件工程 Electronic Technology & Software Engineering

【关键词】网络爬虫静态网页新闻模板

1 绪论

网络媒体随着网络技术的发展迅速壮大，这使得人们能够更快地获取新闻信息。网络媒体的新闻来源有来自于自己所采访的新闻，也

基于网络爬虫的新闻网站自动生成系统的设计与实现

文/刘晖石倩

有许多引用自其他的网站。如何快速准确地采

集新闻，更新新闻网站成为网络媒体的一个重要问题。

2 研究进展

早期的新闻采集大多靠人工去搜索和整理，直到网络爬虫技术的出现才使得人工得以解放，大大提高了新闻的采集速度。为了更加快速准确地抓取网页，Cho[1]等人在爬虫中引入了网页抓取策略的概念。针对特定领域的新闻，王辛[2]等人基于站点分类的网页抓取策略，设计了即时新闻采集分析系统。虽然

现在有了不少爬虫框架，陈欢[3]等人也利用Scrapy 爬虫框架设计了有效的网络新闻爬虫。但由于网络中的网页中存在着大量的与新闻无

关的噪声信息，如何去除噪声，快速有效地到有效的新闻信息近年被广泛地研究。陈西安[4]提出了基于网页文本标签特征挖掘的网页正文提取方法来解决噪声问题。

快速新闻网站生成系统的重要组成部分，

除了快速采集新闻，还有新闻页面模板。新闻页面模板可以为采集到的新闻内容自动生成新闻页面，这能大大加快新网网站内容更新速度。另一方面，可以借助新闻页面模板，将新闻网页转换成静态网页，这能大大提高用户访问页面的速度。王莉利[5]等人提出的将动静技术相结合的思路则能够既保留动态网站的交互性，又克服传统网站访问效率低、并发性差的问题。

3 系统分析和设计

3.1 系统功能模块划分

本文根据新闻网站采集和更新的相关功能需求，设计一个新闻网站自动生成系统，它包括“新闻采集管理”、“新闻管理”、“新闻模板管理”三部分。通过管理新闻网站网址及新闻内容的特殊标签，让爬虫根据预先设置的参数迅速地采集新闻信息，并利用网页模板自动生成新闻静态网页，从而达到新闻网站自

增强党员间的知识、心得分享，共创和谐党建新生活。

4 VR+监控

虚拟现实技术是一种能够创建和体验虚拟世界的计算机仿真技术，利用计算机生成一种交互式的三维

动态视景，其实体行为的仿真系统能够使用户沉浸到该环境中。对于大型企业党组织比较分散，可通过VR 技术对党建活动室、党建活动等开展情况进行远程督促和检查，达到亲临现场的效果。

5 大数据分析

5.1 数据采集

数据采集是数据分析的基础，数据采集范围、颗粒度直接影响数据分析效果。为了进行满足跨党组织类型、全流程、对标、趋势等全视角数据分析，归集所涉及的各类型党组织、各系统、甚至系统外的基础党建数据，进行标准化处理、统一存储，数据采集可以通过ETL 工具，提供一整套数据采集标准接口，通过任务调度，支持不同频率，支持多种数据源（oracle 、mysql 等各类数据库，Excel 等各种文本）采集，支持在线填报（固定报表）与Excel 文件上报等多种数据输入方式，采集示例图如图2所示。5.2 数据建模

在数据处理过程完成后，可以进行数据集市模型的构建，可以采用成熟的商业软件包，并以自主研发的模型予以补充和完善，以满足业务分析的需求。软件包内置的计算引擎或功能会根据软件包所提供的算法对数据做进一步处理和加工。成熟商业软件外的数据集市模型通常按照以下步骤进行：

（1）梳理数据建模元素(事实、度量、维度)。从业务需求分析结果中梳理数据建模元素，从数据源分析这些元素的可获取性，确定数据建模元素的基本信息，包括定义、命名、应用方式等等。

（2）设计和完善事实、度量、维度。基于数据建模元素梳理，需要提炼出相应的事实、维度、度量，考虑事实、维度的合并、拆分，按照一定的业务逻辑进行划分，建立第一层(底层)事实集、维度集、度量集，构建数据集市基础数据信息。

（3）多维分析模型设计，建立相应的星型模型、雪花模型。基于数据建模元素，将事实、维度、度量组合在一起，声明度量和维度的关联关系，包括计算逻辑、粒度统计。

（4）模型验证，从数据需求、业务需求的角度验证模型的合理性。5.3 主题分析

采用基于云计算的报表引擎构建主题分析应用，图表设计支持通过格式布局实现对表格、图表以及CSS 元素的格式定义及数据定义，设计界面类似于Excel 风格，以“EXCEL+绑

定数据列”形式进行主题报表的配置，易于操作，避免了传统配置的复杂性和低效性。5.4 辅助决策

系统支持通过对接可视化大屏、pad 移动端等硬件设备，实现辅助决策的功能。决策辅助功能根据决策的需要，通过对采集的数据的综合应用和汇总，最终将数据在可视化大屏展现，示例如图3所示。

总之，采用互联网技术创新传统党建的模式也迫在眉睫。习近平总书记在全国组织部长会议上明确指出：“要高度重视信息化发展对党的建设的影响，做到网络发展到哪里党的工作就覆盖到哪里，充分运用信息技术改进党员教育管理、提高众工作水平。”因此党建工作的智能化和智慧化将不断探索，通

过智慧党建平台实现基层党务和党员教育管理工作，使得党建迈入信息化、智能化时代，形成“统一活动日集中学、智慧党建随时学、远教站点定期学”的全方位党员学习培训体系，党建工作将变得扁平化、实时化、互动化，基层党建工作层次与水平将有一个新的提升。

作者简介

仲勇，男，硕士学位。工程师。研究方向为计算机应用软件研发、数据建模。

作者单位

中博信息技术研究院有限公司江苏省南京市 210012

<<；上接17页

Network World •

网络天地

Electronic Technology & Software Engineering 电子技术与软件工程• 19

●基金项目：湖南省教育厅教改项目《校企合作人才培养模式与机制的研究与实践——以信息与计算科学专业为例》（SJG2014200）；湖南省教育厅项目《信息科学类专业校企合作创新创业教育基地》（71302-23180006）。

动快速更新的效果。整个系统的功能模块如图1所示。

3.2 新闻采集管理

“新闻采集管理”是对预备采集新闻的网站网址进行管理以及进行新闻搜索。为了更快速准确地去采集新闻信息，系统不会对网络中的所有网站进行新闻信息爬取，而是有针对性地选择主流的新闻网站作为新闻采集对象，建立新闻采集网址库。

在爬虫自动抽取网站新闻信息时，主要抽取的信息包括新闻标题、新闻来源、新闻日期、新闻内容等。通常同一个网站内的新闻网页都具有相同的格式，这些信息都由特定的HTML 起止标签容纳。所以可以通过预先设置需要采集项目的HTML 起止标签让爬虫自动地对网页进行分析，抓取其中有用的新闻信息。在设置HTML 起止标签时，需要考虑如下问题：

（1）有些标签是单标签，此时需要扩大起止标签的范围，避免选择单标签；新闻网站设计

（2）在抓取新闻信息的过程中，需要注意网站页面设置的编码是UTF-8还是GB2312，这对于爬虫分析网页是十分重要的。

设置好所有预备采集的新闻网站的采集参数后，就可以通过“搜索新闻”功能自动地运行爬虫程序去抓取新闻内容，并将相关内容保存到本地服务器的数据库中。由于爬虫搜索网页并存储到本地服务器的过

程通常会比较耗时，所以通常在新闻网站访问量较少的夜间自动进行。

为提高搜索新闻的速度，我们提出了一种批处理的方式进行搜索。批处理的搜索是利用多线程来实现的，以队列的方式建立线程池，通过多线程来提高搜索的效率。因为网速等客观原因，在搜索和分析新闻网站时需要的响应时间不同，系统会自动根据网路传输速度调节分析新闻网页的延时。3.3 新闻管理

“新闻管理”是对采集到的新闻进行管理，它包括预览、编辑、确认等操作。虽然在新闻采集阶段，通过参数设置可以基本保证采集到的新闻信息具有较高的准确度，但也不可完全避免采集到的信息出错的情况。所以，新闻编辑人员可以通过提供的预览功能对采集到的新闻信息进行预览和审核。当发现有些采集到的新闻信息中有部分内容不准确时，新闻编辑人员可以通过“编辑新闻”对其进行编辑加工。更多的出错情况通常是因为有部分新闻网

页信息没有遵循网站共同的格式而导致采集到的信息出错，此时采集到的整条新闻内容信息都可能异常。不论何种情况，新闻编辑人员都可以通过“确认新闻”的功能来确定这条新闻是否可刊登。只有那些被标记为“允许刊登”的新闻信息条目才会自动生成静态新闻网页，并在网站上正式发布。

对于确认过的新闻，系统每天定时在夜间维护时创建一个当天的新闻数据表，并将当天所有确认的新闻复制到此表中，这样每天生成新闻网页时可从这个数据表读取要刊登的新闻。当数据量比较大时，

这样可以提高数据库的访问效率。当采集的新闻数据非常大时，我们也可以借助基于Hadoop 框架的大数据存储系统来管理新闻数据。

3.4 新闻模板管理

“新闻模板管理”包括新闻模板的展示，以及静态新闻网页的生成。新闻网页的内容虽然不同，但页面的样式、风格可以统一。所以我们事先设计好很多不同风格样式的网页模板供新闻编辑人员进行选择。新闻编辑人员可以通过“新闻模板显示”查看已有的网页模板并进行选择。选择好合适的网页模板后，通过“静态网页生成”功能可将编辑人员确认允许刊登的新闻数据转化转化成静态网页格式。为了节省时间，系统默认从当天确认刊登的新闻数据表中逐条读取新闻数据，然后将新闻标题、新闻来源、新闻日期、新闻内容等字段的内容放置在新闻模板中对应标签中。所有生成的静态网页保存在以对应日期命名的文件夹内。静态网页使得用户访问时大大减少由于读写数据库而造成的效率低下问题。

4 系统测试与结论

通过对多个网站的教育板块进行新闻信息抓取，我们发现所设计的系统能够快速准确

地实现自动采集新闻、自动生成新闻网站的功能。但是，由于采集信息是根据新闻网页中的特殊HTML 标签进行采集的，如果采集来源网页样式发生改变，则会抽取不出新闻内容，此时需要重新标

注采集来源网址中的特殊HTML 标签。此外，对于新闻内容的合法性，目前主要通过人工校验，今后可以考虑借助文本的语义分析等手段进行自动处理。

参考文献

[1]Cho J,Garciamolina H,Page L.Efficient

Crawling Through URL Ordering[C]// Proc of Intl Www Conference.1998. [2]王辛，黄穗，龙舜.即时定向新闻

采集技术研究[J].计算机工程与科学,2012,34(09):180-183.

[3]陈欢，黄勃，刘文竹，高永彬，姜晓燕.基

于Python 的网络新闻爬虫与检索[J].软件导刊,2019(05):168-171

[4]陈西安.智能Web 新闻文本采集方法研究

[D].电子科技大学,2016.

[5]王莉利，高新成，王才智.基于动

转静技术的新闻系统的设计与实现[J].陕西理工学院学报(自然科学版),2015,31(02):41-44.

[6]马雷鸣.基于Hadoop 的互联网新闻阅读

系统的设计与实现[D].南京航空航天大学,2017.

作者简介

刘晖（1978-），男，湖南省常德市人。硕士学位。现为中南林业科技大学讲师。主要研究方向为计算机图形学、可视化、计算机技术应用。

作者单位

中南林业科技大学理学院湖南省长沙市

410004

图1：系统功能模块图

688IT编程网

基于网络爬虫的新闻网站自动生成系统的设计与实现

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

基于网络爬虫的新闻网站自动生成系统的设计与实现

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式