职业教育黄页网站的设计与实现
摘要:介绍了一个以职业教育网站为检索对象的黄页网站系统。该系统能够快速有效地为用户提供准确的职教信息。描述了系统的主要功能设计,并对系统的实现进行了相关阐述。
关键词:职业教育;黄页网站;搜索引擎
0引言
在信息爆炸时代,互联网技术的发展使得Web站点的数量飞速增长。据《2005年中国互联网络信息资源数量调查报告》统计:截至2005年底,全国网站总数约为69.4万个。如何有效地为职教/成教(以下统称“职教”)领域的教学科研人员、管理人员、学员等网络用户提供准确、有效的职教信息,是各级职教机构发展过程中遇到的问题。本文设计的职教黄页网站系统能够自动地提供国内主要职业教育机构(包括各级各类职业教育行政管理部门、教研室、资源建设中心、学校、专门的研究和开发机构等)的网站黄页目录,并按照指定的规则分门别类地展现这些网站,提供所列网站发布机构的名称、地区、、网站链接、网站内容摘要等信息,根据地区、网站性质等提供目录检索和自由检索。将搜索引擎技术应用于职教黄页网站系统,能够快速有效地为用户提供准确的职教信息,很好地加速我国职业教育的发展。
1系统主要功能设计
1.1本系统与通用搜索引擎的区别
根据与通用网页搜索引擎的比较分析,本系统具备如下特征:①针对性更强:本系统的检索对象定位为职业教育网站,比通用搜索引擎检索的网页更具针对性;②更适合用户需求:本系统强调对职教领域资源质量的评价和筛选,更加符合用户的需求;③便捷性更高:本系统可自动抽取职教类网站所属区域、学科及所在学段、单位、地址等用户关注度较高的信息,为用户的检索和查询提供了更多的便捷性;④信息有效性可靠度更高:本系统在自动采集职教相关信息的同时,还提供了用户人工比对校验和报错纠错等功能,进一步确保了采集信息的有效性和可靠度。
1.2主题蜘蛛资源搜索
网络蜘蛛即Web Spider,是一个很形象的名字。如果把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻网页,从网站某一个页面(通常是首页)开始,读取网页的内容,到在网页中的其它链接地址,然后通过这些链接地址寻下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。然而,从目前公布的数据来看,容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。因此,针对互联网信息量巨大的特点,本系统设计了面向特定领域的职教主题蜘蛛搜索,有针对性的自动采集职教领域的资源。
为了充分发挥抽取针对性强、精确度高、时效性好的特征,本系
统设计了较多控制和提高主题蜘蛛抽取效率的参数,包括:①蜘蛛的控制参数:包括线程数量、各线程等待时间、超时时间、数据库连接参数;②针对下载网页的控制参数:包括相关度参数、抓取深度、下载文件类型、下载子页面个数等;③针对主题蜘蛛程序控制的参数:包括网络出现状况是的等待重试时间间隔、只从开始的域名下载、只从解释的URL下载、只下载静态化的URL、忽略的URL关键字等。
1.3职教黄页、资源分类设计
企业网站域名设计与查询
职教主题蜘蛛通过HTTP协议自动将网络上与职业教育相关的Web资源下载到本地资源库中,保证本系统能自动采集到所需的职教相关资源。在获取所需网络资源后,本系统设计了自动对职教黄页、资源进行分类的程序,通过对本地资源库中职教相关网站资源的相关属性进行标引,达到对相关资源进行特征提取、自动分类、自动摘要的目的,从而使下载到本地资源库中的职教相关资源能够根据需要进行分类,方便用户提取和使用。
图1为本系统黄页分类流程设计图,由职教主题蜘蛛下载到本地资源库中的资源,通过HTML解析后,在规则和特征库的支撑下,进行资源分析和信息抽取,形成职教资源库,并对其进行相应的文本索引和信息索引,为用户提供检索服务。
图1系统黄页分类流程
基于上述分类流程,形成了部分数据库设计,如图2所示。
图2部分数据库设计
经调研分析,本系统针对黄页分类的设计思路为:第一层次按地
区分类,第二层次按职业教育学校、职业教育政府机构、职业教育企业、职业教育培训机构、职业教育研究机构分类。通过关键元数据项来辅助分类,分别包括:网站名称、网站URL、所属地区、类别属性、、Email、摘要等。
根据用户对资源类别的需求,本系统设计从专业课程、招生就业、科研论文等类对资源进行分类。其中“专业课程”类按国家2006专业目录提供专业及课程相关的资源,与专业相关的资源包括:课程标准、专业培养方案、专业教学计划等;与专业课程相关的资源包括:专业课程简介、课程大纲、课件教案等。辅以关键元数据项:资源名称、简介、URL、来源网站、日期、评分等。“招生就业”类从职教黄页网站上搜集与职教相关的招生信息,从黄页网站、就业网站上搜集与职教专业就业相关的信息。一定要能提供专业招生的情况、专业就业的情况,对职业教育的进口和出口两大问题有前瞻性指导。“可研论文”类则从黄页网站上搜集与职教相关的科研论文。
1.4后台维护及管理设计
本系统还针对后台维护和管理进行了相应的功能设计,主要包括主题蜘蛛管理控制、黄页管理、新闻推送管理、资源管理等。
(1)蜘蛛管理控制。为了保证系统自动采集职教相关资源和信息的效率,系统设计了种子网站管理功能、蜘蛛参数控制、网页参数控制和蜘蛛程序控制功能。
(2)黄页管理。管理网站分类、信息抽取情况的校验,网站的添加、删除、修改;同时审核用户推荐网站并加入资源库,及时删除
探测无效的网站;将用户推荐的网站加入种子网站。
(3)新闻推送管理。包括种子网站和相应规则的添加、删除、修改;种子网站的更新周期、下载深度、目标页面的URL模式设置;下载结果(标题、作者、来源、时间、下载时间、内容)的人工管理,包括对这些信息及时进行删除、修改等。
(4)资源管理。管理职教资源分类、信息抽取情况的校验,并对该类信息及时进行删除、修改;管理探测无效资源的删除;职教资源的添加等。
2系统实现
本系统基于Microsoft Visual Studio.NET 2008 开发环境,采用C#语言开发,数据库依托SQL Server 2000支撑。系统主要分为前台用户服务程序和后台自动化处理程序,其中前台用户服务部分采用B/S 架构,后台主要为控制台应用程序和Windows应用程序。
考虑到多层架构可进一步提高系统的伸缩性和灵活性,同时可使系统更易于设计和维护,在前台用户服务部分,系统采用了环境下的多层架构技术。
3结束语
本文主要介绍了一个以职业教育网站为检索对象的黄页网站系统。详细描述了系统的主要功能设计,介绍了系统的技术实现。实验结果表明,该黄页网站系统能够及时发现、获取和组织职业教育相关网站信息,并对相关资源进行详细描述,从而为职教工作人员快速有效地获取职教信息提供了便捷,很好地加速我国职业教育的发展。参

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。