基于Hive的分布式K_means算法设计与研究--688IT编程网

基于Hive的分布式K_means算法设计与研究
作者：冯晓云陆建峰
来源：《计算机光盘软件与应用》thrift2013年第21期

摘要：针对大数据的处理效率问题，论文主要应用Hadoop技术，探讨了分布式技术应用于大数据挖掘的编程模式。论文以k_means算法作为研究对象，采用Hadoop的一个数据仓库工具——HIVE来实现该算法的并行化，并在结构化的UCI数据集上进行了实验，实验结果表明该方法具有优良的加速比和运行效率，适用于结构化海量数据的分析。

关键词：大数据；Hadoop；分布式；k-means

中图分类号：TP393.02

“大数据”时代已经降临，在商业、经济及其他领域中，决策将日益基于数据和分析而作出，而并非基于经验和直觉[1]。随着互联网和信息行业的发展，在日常运营中生成、累积的用户网络行为数据的规模是非常庞大的，以至于不能用G或T来衡量。我们希望从这些结构化或半结构化的数据中学习到有趣的知识，但这些数据在下载到关系型数据库用于分析时会花

费过多时间和金钱。因此，并行化数据挖掘成为了当下的一个热门研究课题，其主要编程模式包括：数据并行模式，消息传递模式，共享内存模式以及后两种模式同时使用的混合模式[2][3]。

1 国内研究现状

当前中国的云计算的发展正进入成长期，国内很多研究者正进入分布式的数据挖掘领域，利用国外的成熟平台，例如Hadoop来实现大数据的聚类等算法。但是数据的多样性，文本多格式，造成对数据的操作有很大的难度，而如今大多数论文都利用了标准化的mapreduce方法来进行代码的编写，具有一定的通用性，但是Hadoop下还有许多的工具，能够简化m/r过程，同样对一定结构的数据具有很好的并行效果，但是这方面的研究比较少，因此本文引入了HIVE的运用，简化了数据的操作过程，利用类似标准的SQL语句对数据集进行运算，在一定程度上提高了并行化计算的效率。

688IT编程网

基于Hive的分布式K_means算法设计与研究

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

基于Hive的分布式K_means算法设计与研究

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式