教育行业IPv6资源共享与监测的平台设计
近年来,随着IPv6行动计划方案的
出台,我国大力推进IPv6规模部署,力
求在未来能够抢占下一代互联网的先机。
中国教育和科研计算机网CERNET目前
拥有上百万的大规模IPv6用户体,是
我国研究下一代互联网技术、开发重大应
用、推动下一代互联网产业发展的重要基
础试验设施。
基于CERENT庞大的IPv6用户体,
上海交通大学搭建了CERENT全国教育行
业IPv6资源共享与监测平台,在分布式
架构和自行开发的IPv6爬虫和搜索引擎免费平台源码资源网
的基础上,实现了对全国各省市/学校的
IPv6网站情况的持续监测,通过采集各类
数据,提供多种数据分析和使用场景。
项目概况
通过该项目,能够实现对全国各省市/学校网站域名的IPv4/IPv6解析动态监测;实现对全国各省市/学校申请IPv6地址段的动态管理;实现对IPv6网站的存活性和访问性能的持续动态监测,形成全国教育系统的IPv6资源目录列表;提供全国教育系统IPv6网站的全文搜索/网页源码快照/网页截图;提供分类和全局的各类IPv6发展指标动态排名;提供分类和全局的各类IPv6发展指标趋势分析;完成对全国教育行业IPv6网站的自动发现和自我增长机制;实现和IPDB(高等教育行业网络信息基础数据库)和GEDB(教育部信息资产管理平台)的数据对接等。
全国教育行业IPv6资源共享与监测平台的总体目标有以下几个方面:
1.按照一定的时间周期,对十万量级网站进行DNS监测、存活监测与首页采集;
2.按照单次检索时间不超过3秒,对千万
量级网页的全文检索;3.对十万量级的网
页进行周期性截图,每轮时间不超过1天;
4.对IPv6的动态排名机制与历史记录统计,
提供可选择的、不同粒度的可视化报表;
5.对IPDB与GEDB的数据每天进行同步。
技术方案
全国教育行业IPv6资源共享与监测
平台共分为四个模块:1.Web前端模块。
Web模块使用Vue.js和webpack作为项
目的前端框架;2.Web后端模块。Web后
端模块使用基于Python的Django框架与
Django-Rest-API框架进行开发;3.爬虫
模块。爬虫部分使用自研的快速抓取引
擎,实现高速抓取;4.搜索引擎模块。使
用ElasticSearch集,配合中文分词进行
搜索引擎模块的构建。
上海交通大学
项目特
本项目依托IPDB与GEDB,对全
国高校的IPv6网站进行了即时缓存。从
宏观视角对教育网IPv6站点普及情况能
够做定期检测、统计并形成IPv6趋势变
化报表,同时利用上海交通大学的IPv6
网络资源与计算资源,对I P v6站点进
行数据爬取、数据存储、数据索引,完
成了首个关注于教育类I P v6站点的搜
索引擎。
项目优势在于IPDB作为中国高等教
育行业网络信息基础数据库,具有国内
最权威的高校网站数据。同时在GEDB
的开发过程中,开发团队积累了对大规
模爬虫、大规模数据存储、高并发网络
请求的经验,在上海交通大学网络信息
中心的支持下顺利完成。(责编:杨
燕婷)
(本文资料来源:上海交通大学封寒松)
IPv6
50中国教育网络 2019.8
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论