基于Hadoop 集的日志分析系统的设计与实现--688IT编程网

基于Hadoop 集的日志分析系统的设计与实现
作者：陈森博陈张杰
来源：《电脑知识与技术》2013年第34期

摘要：当前Internet上存在着海量的日志数据，他们中蕴藏着大量可用的信息。对海量数据的存储和分析都是一个艰巨而复杂的任务，单一主机已经无法满足要求，使用分布式存储和分布式计算来分析数据已经成为了必然的趋势。分布式计算框架Hadoop已经日趋成熟，被广泛的应用于很多领域。该文描述了一个针对大日志分析的分布式集的构建与实现过程。介绍了日志分析的现状，使用vmware虚拟机搭建了Hadoop集和日志分析系统的构建方法，并对实验结果进行了分析。

关键词：分布式计算；日志分析；Hadoop；集；vmware

中图分类号：TP311 文献标识码：A 文章编号：1009-3044（2013）34-7647-04

1 概述

日志文件是由系统或者应用程序产生的，用于记录系统和应用程序的操作事件如各种服务

的启动、运行、关闭等信息。通过对日志文件的分析可以获得很多有价值的数据也能实现对系统安全、性能等方面的监控。Web日志[1]是由Web服务器产生的，随着社交网络的兴起，Web2.0时代的到来，网站的用户访问量的成级数增长，产生的日志文件大幅增多。传统的日志文件分析方式已经无法满足大数据量日志分析的需求。该文将以Web日志文件为例，利用Hadoop集构建一个分布式计算平台为大数据日志文件的分析提供一个可行的解决方案，以提高了日志分析的效率，为进一步的大数据分析的提供参考。

hadoop分布式集搭建现今日志文件分析方案是对大的日志文件先进行分割，然后对分割后的日志文件进行分析，分析方法采用文本分析及模式匹配等，最常见的是采用awk、python、perl。这种分析方式面对大数据的日志文件分析效率低下，耗时长。王潇博提出了基于挖掘算法的日志分析方式，并设计了TAT系统[1]。对于Web分析除了对Web日志本身进行分析外还可以主动收集访问信息，然后将信息存于关系型数据库中。这种方式最常见的是Google Analytics、百度统计等。这种方式将会影响网站的性能，延长网站的加载时间。其次如果直接采用第三方的统计，还将会泄露网站的信息。当访问量高时，基于关系型数据库分析的方式将会受到数据库性能的制约。钱秀槟，刘国伟，李锦川等人提出了基于模式匹配算法的Web应用日志分析系统[2]。

688IT编程网

基于Hadoop 集的日志分析系统的设计与实现

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

基于Hadoop 集的日志分析系统的设计与实现

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式