集团大数据平台系统性能指标和测试结果说明
集团大数据平台系统性能指标和测试结果说明
本文介绍了一项针对运营商手机上网记录查询系统的性能测试。该系统每日上网记录数近10亿条,每月数据量近9TB,数据量巨大,已经超越了传统关系型数据库可管理的容量上限。因此,本测试旨在验证星环科技的商用Hadoop平台是否可以有效解决数据采集、加载、存储、查询、分析等问题。
测试内容包括存储节点数和存储量验证、并发加载数据的效率验证以及三个应用场景的性能验证。测试环境配置包括300+台服务器、双电口万兆以太网卡、NameNode节点3台、DataNode节点、Zookeeper节点、集监控节点、入库服务节点、Web查询应用服务器等。
测试结果显示,现有HDFS集已被占用10.5PB,实际HBase表数据也已经有3.5PB左右。集导入性能没有问题,每秒平均达到1500万记录/秒,峰值时达到5000万/秒。支持并发查询数目远高于请求/秒,上网记录查询速度不高于1秒。
总的来说,本测试证明了星环科技商用Hadoop平台的成熟稳定性,可以有效解决大规模数据
管理的问题。
TPC-DS是一个多维数据模式的测试集,包含星型和雪花型等多种模式。它包含7张事实表和17张纬度表,平均每张表含有18列。该测试集包含99个SQL查询,覆盖SQL99和2003的核心部分以及OLAP。这个测试集包含对大数据集的统计、报表生成、联机查询、数据挖掘等复杂应用,测试用的数据和值是有倾斜的,与真实数据一致。可以说TPC-DS是一个与真实场景非常接近且难度较大的测试集。
TPC-DS的这个特点与大数据的分析挖掘应用非常类似。Hadoop等大数据分析技术也是对海量数据进行大规模的数据分析和深度挖掘,也包含交互式联机查询和统计报表类应用,同时大数据的数据质量也较低,数据分布是真实而不均匀的。因此TPC-DS成为客观衡量多个不同Hadoop版本以及SQL on Hadoop技术的最佳测试集。该测试集有以下几个主要特点:1)共有99个测试案例,遵循SQL99和SQL2003的语法标准,SQL案例比较复杂;2)分析的数据量大,并且测试案例是在回答真实的商业问题;3)测试案例中包含各种业务模型,如分析报告型、迭代式的联机分析型、数据挖掘型等;4)几乎所有的测试案例都有很高的IO负载和CPU计算需求。具体的测试案例详见本建议书附录部分《TPC-DS测试集99 query说明》。
本测试旨在通过选取多个量收系统典型实际应用场景测试,验证星环TDH产品能够实现量收系统各类功能应用,能够较好的满足量收系统迁移要求。测试内容包括量收系统功能各类型的技术和业务场景,包含六个方向应用,具体分别是:1)大数据量数据加载、计算及汇总,此方向取“范围段加载ETL”;2)高并行计算、复杂计算、大表关联,此方向取“收入宽表计算ETL”;3)大数据量、高并发查询,此方向取“量收日统计表查询”;4)Cognos复杂逻辑应用,此方向取“淡旺季报表统计”;5)大表的update和delete类SQL计算,此方向取“营业客户数据加载计算ETL”;6)Oracle存储过程运算,此方向取“报刊在Oracle中存储过程”。
测试环境的硬件配置包括8台CPU,详见表9-5.
生产表数据规模:
以下是生产表的数据规模,包括表名、记录数和备注。
表名 记录数 备注
pims_pdata.tb_peo_postcol
pims_pdata.tb_peo_postder 7843hbase应用案例
pims_pdata.tb_peo_postder
pims_pdata.tb_prt_custlevel 483
pims_pdata.tb_peo_winpos
pims_pdata.tb_sum_peopos 320
pims_pdata.tb_sum_peonm 07
m
46
pims_pdata.tb_peo_prtcin
pims_pdata.tb_cde_cpbusnt 15
pims_pdata.tb_fct_kadd
pims_pdata.tb_fct_operdaily
pims_pdata.tb_fct_mdak
持续时间:
以下是并行执行workload的持续时间,单位为分钟。
时间 2 0:07:23 0:06:30 0:01:14 0:00:32 0:00:06 0:00:03
性能展示图:
下面是图9-3的性能展示图2.
测试机器的IP地址分别为197.1.25.114(BIGL1TMP)、197.1.25.115(BIGL2TMP)、197.1.25.116(BIGL3TMP)、197.1.25.117(BIGL4TMP)和197.1.25.118(BIGL5TMP)。它们的CPU采用2C/6核的E5-2620,磁盘为2TB*8块,内存为96GB。集部署方面,BIGL1TMP部署了Zookeeper、NameNode、JournalNode、ResourceManager、NodeManager、HBaseMaster和InceptorMetastore;BIGL2TMP部署
了Zookeeper、___、___、___和HBaseMaster;BIGL3TMP部署了JournalNode、___、NodeManager、HBaseMaster、n Server和InceptorServer;BIGL4TMP部署了DataNode、NodeManager、n。BIGL5TMP部署了Zookeeper、DataNode、n Server。
在测试过程中,我们将数据文件均匀地分配到集的各台机器上,并编写了HDFS上传脚本,通过记录上传时间和文件大小来计算数据并发加载速度。具体测试步骤如表9-11所示,场景1测试的是客户基本信息查询,相关表包括FIN_CUST_INFO_BASE。在场景2测试中,我们测试了客户扩展信息查询,相关表包括FIN_CUST_INFO_BASE、FIN_CUST_INFO_SUB、FIN_CONFINPRO和FIN_CUST_CMANAGER。数据量为xxxxxxxx条,TPS达到了超过12W,并发数为7000,单SQL平均执行时间为11ms(Transwarp SQL性能)和3ms(Hyperbase API性能)。
The first paragraph seems to be a SQL query。However。there are some formatting errors and ___ unclear parts。___:
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论