利用网页信息采集技术建立医院内网新闻平
台的探讨
张雷1,李菁姝1,马宇新1,张玮2
(1.河北医科大学第一医院信息中心,河北石家庄050031;2.河北医科大学国资处,河北石家庄050017)
摘要:利用网页采集技术,搭建内部新闻平台,医护人员通过信息系统内部网络即可及时了解国内和国际新闻动态。
关键词:网页采集;内网新闻;CMS
G640 文献标志码:A :1674-9324(2013)51-0198-02
一、引言
我院信息系统网络与公网采取了严格的物理隔离措施,通过网闸来实现内外网之间的数据访问。医院在内网建立了内部网站,用于发布院内新闻和通知等信息。信息系统用户只能浏览内部网站提供的院内新闻,不能浏览公网信息。随着医院的不断发展和网络的普及,通过网络临床工作人员迫切希望能通过信息系统网络了解自己关心的国家时政、新闻、政策法规等信息。利用信息化技术消除“信息孤岛”,为临床工作者和医院管理人员提供更多服务二、方案选择
实现以上功能,有以下两个方案:
方案一:利用现有网闸,将公网地址映射到内网,解决用户浏览新闻的问题。
方案二:在外网搭建自己的新闻平台,及时发布新闻信息,通过网闸映射该网站至内网。
方案一实施较为简单,仅需简单配置即可实现上述功能,但存在弊端,主要原因是公网网站上的内容一经映射到内网后,用户可以浏览网站内的全部信息,对于一些娱乐信息和无关信息无法屏蔽,浏览无法控制,所以方案一不予采纳。
方案二需搭建自己的新闻平台,实施起来较方案一复杂,但对新闻信息可以进行管理,规避一些无关信息,故采用了第二套方案。按照方案二,面临的问题是单靠人力逐条复制录入新闻,势必造成资源的极大浪费,故考虑采用网页信息采集技术,来实现新闻信息的批量获取和发布。网页信息采集技术是通过分析网页的HTML代码,获取网内的超级链接信息,使用广度优先搜索算法和增量存储算法,实现自动地连续分析链接、抓取文件、处理和保存数据的过程。三、实施
具体实施过程如下:
1.CMS选型:CMS是Content Management System的缩写,意为“内容管理系统”,它具有许多基于模
板的优秀设计,可以加快网站开发的速度和减少开发的成本。为了节省投资,目前较为流行的“帝国CMS”、“PHPCMS”、“织梦CMS”等免费CMS中进行了比较,感觉织梦CMS使用方便,模板较多,特别是后台带有网页采集模块,最终选定了织梦内容管理系统(以下简称DedeCMS)。
2.搭建服务器环境,笔者采用的Windows2003 Server IIS+PHP+ MySQL的模式搭建。PHP,是英文超级文本预处理语言Hypertext Preprocessor的缩写。PHP是一种HTML内嵌式的语言,是一种在服务器端执行的嵌入HTML文档的脚本语言,语言的风格有类似于C语言,被广泛地运用。现在PHP部署很简单,直接从http://www.php下载5.4.0版本安装包后,安装即可。
MySQL是一个小型关系型数据库管理系统,由于其体积小、速度快、总体拥有成本低,尤其是开放源码这一特点,许多网站选择了MySQL作为网站数据库。从http:
//sql/下载安装MySQL Installer 5.5.21版本进行安装。为了确保数据库的安全,在MySQL安装过程中应注意设置root用户密码。如果忘记设置,可在系统安装完毕后,可用mysqladmin命令设置密码。安装完毕后测试PHP及MySQL服务是否正常。
3.MySQL数据库管理,可用PhpMyAdmin或者NavicatMySQL。PhpMyAdmin的缺点是必须安装在Web服务器中,所以如果没有合适的访问权限,其他用户有可能损害到SQL数据。Navicat MySQL是一个强大的MySQL数据库服务器管理和开发工具。它可以与任何3.21或以上版本的MySQL一起工作,
并支持大部分的MySQL最新功能,包括触发器、存储过程、函数、事件、视图、管理用户,等等。它不仅对专业开发人员来说是非常尖端的技术,而且对于新手来说也易学易用。因是本地服务器,综合考虑,最后安装Navicat MySQL用于MySQL 数据库管理。
4. 安装DedeCMS,从http://www.dedecms/ 下载“DedeCMS V
5.7”版本。按照网站
提供的教程进行安装,安装过程中应注意以下几个问题:(1)data、templets、uploads、a或html目录,设置可读写,不可执行的权限。(2)不需要设置专题,建议删除special 目录,需要可以在生成HTML之后,删除special/index.php然后把此目录设置为可读写,不可执行的权限。(3)include、member、plus、后台管理目录设置为可执行脚本,可读,但不可写入(安装了附加模块的,book、ask、company、group目录同样如此设置)。(4)安装完成后删除install目录。
5. 设置网站栏目,根据自己的需求设置不同的网站栏目,笔者设置的是人民网、健康报网及地方报纸等栏目。
6.实现网页采集是本方案中最核心的地方,DedeCMS自带的网络采集模块也可实现网页自动采集,但采集功能比较单薄,不能同时采集和发布多个网站,而且需要登录网站后台操作,操作过程烦琐,因
此需寻觅一套能实现自动批量采集的软件。现在网上的数据采集软件主要有以下几种:“火车头”、“网络矿工”、“有讯软件”、“网络神采”、“易采”、“狂人”、“三人行”等。以上都是收费软件,有免费版本可供试用,但功能上都有限制。因其大部分采集为纯静态页面,且数据结构简单,在尝试了众多采集软件后,最终选择了“火车采集器V7免费版”。“火车采集器V7”带有“DedeCMS5.7”版本的Web发布模块,省去编写发布接口代码了。直接运行“火车头采集器”,在任务栏里增加需采集网页的任务,编辑采集网址规则、采集内容规则、发布内容设置等来实现网页的批量自动采集和批量发布。在实际操作中应注意一下几个方面的问题:(1)在采集当中涉及到远程图片如何采集发布到本地服务器的问题,在采集内容规则中选择“把相对地址补全为绝对地址”即可,因为DedeCMS本身有下载远程图片和资源的模块,可自动下载远程图片。由于使用的是免费版本,受到限制,笔者在这里走了不少弯路。(2)由于采集数量较大,难免有重复文章,可通过“DedeCMS”提供的重复文档检测功能,对重复的文档进行批量删除。(3)通过火车头采集器可以批量发布文章,当仍需登录后台点使用一健更新网站功能,更新网页链接。(4)在编辑采集规则的时候,应用过滤功能,过滤调多余的代码。
织梦管理系统php版本四、讨论
通过以上方法搭建了医院新闻平台,能及时批量更新的新闻网站,网络信息采集在信息采集、资源整合方面节约大量的人力与资金。但有部分网站采取了防采集措施,无法采集数据。另外由于采用的都是免费软件,目前仅实现了图片的自动发布,对于附件的发布尚无较好方式,有待进一步改进。
参考文献:
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论