关键词:中小型网站分析;数据挖掘;决策系统
伴随着互联网、大数据、分布式服务器等技术的飞速发展,标志着以通讯、计算机、网络技术为代表的现代信息技术为代表的新信息技术时代的来临。新信息时代变革对于中小型网站既是机遇又是调整:一方面新技术的迅速发展,给互联网生态不断注入新鲜血液;另一方面,中小型网站受制于资金和自身技术能力,不能很好地在互联网上基于新技术进行进一步延伸和拓展。作为我国经济和社会发展的重要力量,中小企业凭借网站、电子商务、应用等互联网平台在电商、服务贸易等领域发挥着重要作用[1][2][3]。在新信息技术时代大背景下,中小企业网站通过基于大数据的在线决策分析系统提高内部管理效率、降低运营成本、扩大市场机会、提升服务水平具有重要作用[4]。以往在线决策分析系统基本是面向大企业网站,复杂度高,成本高昂[4][5],少量面向关于中小企业网站的研究多采取定性描述等方式,缺少基于大数据的科学定量的研究方法[6]。决策分析作为网络信息分析和数据研究的重要方法和依托,可以从网络信息资源的管理与科学评价方面为中小企业网站建设提供定量的分析[7]。本研究基于长期市场分析和技术研发,提出了面向中小型网站在线决策系统:通过此系统的专业精准分析进行科学和有效的判断决策。
1决策支持平台技术概述
1.1后台数据处理与分析部分
决策支持网站采用B/S架构,后台数据处理和分析部分支持全国各地的分布式的网站。系统最低程度地使用用户的资源,包括服务器与人力资源。系统的配置方式通过批处理完成,保证用户的数据传输是安全的。历史数据的存放采用备份与压缩技术,支持大批量的用户的同时使用。有的网站有可能因为自身的原因,不能及时提供数据。本系统具有自动告警的功能,同时,如果系统正常以后,需要有自动获取数据的功能。系统需要具备冗余性和鲁棒性,如果正在计算的服务器资源出现故障,那么要有其它计算机资源接管或者重新执行任务的能力。系统也具有并行计算的能力,充分利用计算机服务器的多核特性。
1.2前台交互部分
系统前端用户交互部分具有模块划分的能力,不同的用户可以看到不同的服务功能。具有计费、续费、缴费的在线功能,保证页面的刷新速度,能够配置自己站点栏目的能力,能够展现各类图表。系统还需要具备在线即时通信。
1.3关键技术问题
spider软件
1.3.1第一种:数据传输的问题整个系统平台最关键的问题是用户如何把自己的日志文件或者网站访问情况的信息交付给系统平台进行服务。不同类型的网站的访问信息(或日志文件)获取的途径不同,尽量把不同的日志获取途径统一在几种方式上[8]。一般来说,中小型网站有如下四类情况:A.有自己的网站服务器,也有多余的空闲服务器,也有自己的技术人员。同意开放FTP端口或HTTP传输日志。B.有自己的网站服务器,但是没有独立的网站分析的服务器。不对外开放端口。C.有自己的网站服务器,也有多余的空闲服务器,没有多余的技术人员。D.没有自己的网站服务器,使用的是虚拟主机空间。针对如上四类情况,采用不同的方式来获取日志以及进行分析:(1)A类情况:用户注册以后可以下载一个比较完整的软件包,该包安装于客户处的服务器上。这类客户的好处就是:能够保证了自己数据的放心度、保证了访问的速度。(2)B类情况:用户可以下载一个日志推送小工具,该小工具安装于客户处的任何机器,例如桌面机。通过端口配置,客户可以主动把日志文件投送的注册是选定的服务器。(3)C类情况:操作方式与B类一样。如果由空闲的计算机资源,可以通过资源置换的方式征用此服务器作为网格计算的节点,此服务器需要安装一个分析引擎。这台服务器来作为整个平台的一个网格节点使用。(4)D类情况:让虚拟主机商开放其用户的日志文件,通过B类的方式获取到日志,进而进行分析。
1.3.2第二种:网格化分析计算问题对于网格化计算问题,中心服务器与其他网格节点进行通讯来分配任务,网格节点计算完自己的任务后,把计算的结果传输回节点数据库服务器,要传输的数据量都是有限的,压缩后的数据以及分析处理后的数据都变得非常小。这样,网格节点就可以等待其他任务的到来。如果从客户处的网格节点发生变化,例如终止服务,整个系统统平台不会遗留其他任何数据。另外要驱动网格节点并行启动分析服务,所以有并行运行的能力,同时驱动多核的计算能力。安装在网格服务器上分析引擎也可以通过中心服务器删除。
1.3.3第三种:数据存储管理问题数据存储管理首先要解决大量长期数据的保存问题。另外要解决数据在传输过程中的安全问题。还要解决数据的备份与恢复的问题和压缩与解压缩的问题。1.4解决方案本系统的前台采用Web服务方式,注册用户通过浏览器登录后,直接使用对应的功能,对于用户来说就像自己独立使用一套产品一样。而后台就需要大量的技术作为保证,相对于给大客户独立安装使用一套系统,要求服务于大量的网站,同时要保证数据的稳定性及安全性、结果查看的快速有效性,所以产品研发复杂性更高,主要需要实现以下关键技术:(1)复杂数据的异构管理,包括海量数据的压缩处理;(2)异地数据的网格化管理。数据不用集中上传,直接进行异地存放,集中式管理;(3)数据分析的并行处理以
及网格化计算;(4)Web访问的网格化服务。集中式登陆认证,分布式权限控制;(5)分布式数据备份与集中式恢复管理;(6)数据安全性保护。
2中小网站在线决策系统实现
中小网站在线决策系统是一个面向中小型网站的服务平台系统,该系统可以同时服务于上万、甚至十几万的网站客户。这些中小型的网站不需要安装这个系统,而只是通过服务租用的方式来使用,通过配置后,就可以直接使用此系统。通过此系统的专业的分析,网站可以全面了解自身的网站流量、被关注的程度、范围甚至每一个细节,通过网站分析、网站流量分析的结果进行科学的决策来提高其网站的商业价值。
2.1系统架构
本系统支持中小型的网站利用本项目实现的服务平台,在线分析自己的数据,从而获得科学的决策依据。因为系统分析的各个网站分布广泛,所以此系统支持远程数据管理的能力。本系统设置中心管理服务器、任务分配服务器,在全国各地设置数据分析节点,整个系统平台构成一个虚拟的运营平台。系统架构图如图1。在图1中,当一个用户通过统一的服务平台
网址申请一个服务时,中心服务器会根据申请者网站的所在地,就近选择一个服务器作为此用户的服务平台。注册成为一个会员服务用户后,系统会返回一个访问网址,会员就可以通过这个网址来访问这个系统。中心管理服务负责管理整个平台的运营,包括用户认证、计费等。任务分配服务器负责调度所管理的所有服务器。分析服务器(节点数据分析服务器、网格分析服务器)负责分析数据。节点WEB访问服务器就是直接面对用户的服务站点。该WEB服务器可以根据负责的用户容量,增加新的服务器来负载均衡。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论