基于Hadoop 集的日志分析系统的设计与实现
作者:陈森博 陈张杰
来源:《电脑知识与技术》2013年第34期
作者:陈森博 陈张杰
来源:《电脑知识与技术》2013年第34期
摘要:当前Internet上存在着海量的日志数据,他们中蕴藏着大量可用的信息。对海量数据的存储和分析都是一个艰巨而复杂的任务,单一主机已经无法满足要求,使用分布式存储和分布式计算来分析数据已经成为了必然的趋势。分布式计算框架Hadoop已经日趋成熟,被广泛的应用于很多领域。该文描述了一个针对大日志分析的分布式集的构建与实现过程。介绍了日志分析的现状,使用vmware虚拟机搭建了Hadoop集和日志分析系统的构建方法,并对实验结果进行了分析。
关键词:分布式计算;日志分析;Hadoop;集;vmware
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2013)34-7647-04
1 概述
日志文件是由系统或者应用程序产生的,用于记录系统和应用程序的操作事件如各种服务
的启动、运行、关闭等信息。通过对日志文件的分析可以获得很多有价值的数据也能实现对系统安全、性能等方面的监控。Web日志[1]是由Web服务器产生的,随着社交网络的兴起,Web2.0时代的到来,网站的用户访问量的成级数增长,产生的日志文件大幅增多。传统的日志文件分析方式已经无法满足大数据量日志分析的需求。该文将以Web日志文件为例,利用Hadoop集构建一个分布式计算平台为大数据日志文件的分析提供一个可行的解决方案,以提高了日志分析的效率,为进一步的大数据分析的提供参考。
hadoop分布式集搭建 现今日志文件分析方案是对大的日志文件先进行分割,然后对分割后的日志文件进行分析,分析方法采用文本分析及模式匹配等,最常见的是采用awk、python、perl。这种分析方式面对大数据的日志文件分析效率低下,耗时长。王潇博提出了基于挖掘算法的日志分析方式,并设计了TAT系统[1]。对于Web分析除了对Web日志本身进行分析外还可以主动收集访问信息,然后将信息存于关系型数据库中。这种方式最常见的是Google Analytics、百度统计等。这种方式将会影响网站的性能,延长网站的加载时间。其次如果直接采用第三方的统计,还将会泄露网站的信息。当访问量高时,基于关系型数据库分析的方式将会受到数据库性能的制约。钱秀槟,刘国伟,李锦川等人提出了基于模式匹配算法的Web应用日志分析系统[2]。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论