大数据毕业设计x--688IT编程网

大数据毕业设计

【篇一：基于hadoop数据分析系统设计(优秀毕业设计)】

摘要随着云时代的来临，大数据也吸引越来越多的关注，企业在日常运营中生成、积累的用户网络行为数据。这些数据是如此庞大，计量单位通常达到了pb、eb甚至是zb。h

adoop作为一个开源的分布式文件系统和并行计算编程模型得到了广泛的部署和应用。本文将介绍hadoop完全分布式集的具体搭建过程与基于hive的数据分析平台的设计与实现。

关键字

hadoop分布式集搭建 hadoop，mapreduce，hive

abstract with the advent of cloud, big data also attract more and more attention, the enterprise of the generation and accumulation in the daily operation of the user network behavior data. the data is so large, the measuring unit is usually achieved the pb, eb, and even the zb. the hadoop distributed file system as an open source, and parallel computing

programming model has been widely deployed and application. this article introduces hadoop completely distributed cluster process of concrete structures, and the design and implementation of data analysis platform based on the hive.

key words hadoop，mapreduce，hive

第一章

第二章

第三章

3.1

3.2

3.3

3.4

3.5

3.6 某某企业数据分析系统设计需求分析 ...................................................... 3 hadoop简介 .............................................................................................. 4 hadoop单一部署 ...................................................................................... 7 hadoop集部署拓扑图 ................................................................................. 7 安装操作系统centos ...................................................................................... 8 hadoop基础配置 ........................................................................................... 14 ssh免密码登录 ............................................................................................ 17 安装jdk ......................................................................................................... 18 安装hadoop .................................................................................................. 19

3.6.1安装32位hadoop ...................................................................................... 19

3.6.2安装64位hadoop ...................................................................................... 28

3.7

3.8 hadoop优化 ................................................................................................... 32 hive安装与配置 ............................................................................................ 33

3.8.1 hive安装 ..................................................................................................... 33

3.8.2 使用mysql存储metastore ..................................................................... 33

3.8.3 hive的使用 ................................................................................................. 36

3.9 hbase安装与配置 .......................................................................................... 37

9.1 hbase安装 ..................................................................................................... 37

9.2 hbase的使用 ................................................................................................. 39

3.10 集监控工具ganglia .................................................................................. 43

第四章 hadoop批量部署 .................................................................................... 48

4.1 安装操作系统批量部署工具cobbler .............................................................. 48

4.2 安装hadoop集批量部署工具ambari ......................................................... 54

第五章

第六章

第七章使用hadoop分析网站日志 ................................................................... 63 总结 ............................................................................................................ 67 参考文献 .................................................................................................... 67

致谢.............................................................................................................................. 68

第一章某某企业数据分析系统设计需求分析

某某企业成立于1999年，其运营的门户网站每年产生大概2t的日志信息，为了分析网站的日志，部署了一套oracle数据库系统，将所有的日志信息都导入oracle的表中。随着时间的推移，存储在oracle数据库中的日志系统越来越大，查询的速度变得越来越慢，并经常因为查询的数据量非常大而导致系统死机。日志信息的分析成为了xx企业急需解决的问题，考虑

到单机分析的扩展性与成本问题，且xx企业当前有一部分服务器处于闲置状态，最终决定在现有服务器的基础上部署一套分布式的系统来对当前大量的数据进行分析。结合淘宝目前已经部署成功的数据雷达系统，同时由于xx企业预算有限，为了节约资金，决定采用开源的hadoop来部署公司的数据分析系统。

? 采用hadoop集优势：

1. 高可靠性，能够维护多个工作数据副本，确保能够针对失败的节点重新分布

处理。

2. 高扩展性，在计算机集簇间分配数据并完成计算，这些集簇可以很容易扩展

到数以千计的节点中去。

3. 高效性，以并行的方式工作，通过并行处理加快处理速度。

4. 高容错性，自动保存数据多个副本，并能够自动将失败任务重新分配。

5. 廉价性，框架可以运行在任何普通的pc上。

? 采用hadoop集劣势：

1. 采用单master的设计，单master的设计极大地简化了系统的设计和实现，

由此带来了机器规模限制和单点失效问题。

2. 编程复杂，学习曲线过于陡峭，让许多人难以深入。

3. 开源性，在广大社区维护不断推进hadoop的发展的同时，一旦代码出现漏

688IT编程网

大数据毕业设计x

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

大数据毕业设计x

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式