企业大数据案例分析
1中国联通大数据平台
联通XX公司公司按照工信部的的要求(见《工业和信息化部、国务院国有资产监督管理委员会关于开展基础电信企业网络与信息安全责任考核有关工作的指导意见》和《工业和信息化部办公厅关于印发<2013年省级基础电信企业网络与信息安全工作考核要点与评分标准>的通知》),于2013年启动IDC/ISP日志留存系统的建设,其中XX公司侧的集中留存系统软件由联通研究院负责开发。为了满足海量数据条件下的处理效率的要求,XX公司侧集中留存系统软件除研究院自主开发外,基于Hadoop的数据存储部分计划进行外包,通过软件技术服务,来进行系统优化和维护支撑。
1.1hbase应用案例项目概述
目前,联通XX公司公司全国IDC出口的访问日志预计两个月产生的数据量约20PB至30PB,每秒写入大概6千万至7千万条数据,在如此巨大的数据量下,原有Teradata和Oracle已经不能满足快速读写的性能要求了。同时为了实现快速检索以及分析处理的性能要求,需要引入分布式
大数据平台,利用分布式文件存储系统,提高数据的存储入库能力,利用Hadoop/HBase架构克服磁盘I/O瓶颈导致的数据读写延迟;基于联通IDC出口流量详单数据进行快速存储和检索以及分析处理,同样要求数据处理平台具备快速读写的高性能。
中国联通公司全国IDC日至留存项目对分布式集的要求非常高:
(1)日志数据量非常大,存储的总日志数据量将达到20PB-30PB。
(2)要求集的数据吞吐量非常高,每秒的日志写入量将达到6千万至七千万条,未来还会增长更多,每秒的数据写入量为上百GB
(3)数据访问的性能要求非常高,对日志的分析需要分钟级、甚至秒级返回结果。
(4)数据计算量大,日常日志扫描任务就需要扫描上百TB,甚至上PB的数据。
(5)集的扩展性要求非常高,能够灵活扩展至上千个节点的集。
根据此次中国联通的需求,以及项目的特点和技术要求,推荐采用商用的、成熟的、基于星环Transwarp Data Hub的企业级大数据平台套件,构建中国联通IDC日志留存平台的基础大
数据平台,用于满足海量日志的高速存储、计算、分析、挖掘的需求。
1.2项目实施情况
星环科技通过协助联通XX公司搭建基于星环Transwarp Data Hub的大数据平台,成功为联通XX公司搭建了信息安全管理系统大数据存储处理子系统项目所采用的平台系统。分布式大数据平台采用Hadoop/HBase架构,能够支持对联通IDC出口流量详单的存储和快速检索和分析处理。
系统拓扑:
图4-1联通大数据平台技术架构
整个集由FTP集和Hadoop集组成,其中:
FTP集:
由129台服务器组成,hostname对应为idcisp-ftp-001 ~ idcisp-ftp-129
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论