Benchmark性能测试综述--688IT编程网

１引言

Ｂｅｎｃｈｍａｒｋ作为一种评价方式，在计算机领域有着长期的应用。Ｂｅｎｃｈｍａｒｋ，一般译成基准或标杆，按牛津百科全书的解释，Ｂｅｎｃｈｍａｒｋ是指测试人员在岩石、混凝土立柱等上面刻下的标记，用以测量相对高度等，也称（供比较参照之用）样板或参照点。Ｂｅｎｃｈｍａｒｋ测试的着眼点是测试结果的可比性，即按照统一的测试规范（ｔｅｓｔｓｐｅｃｉｆｉｃａｔｉｏｎ）对被测试系统进行测试，测试结果之间具有可比性，并可再现测试结果。

１．１应用领域

Ｂｅｎｃｈｍａｒｋ测试在计算机领域中最广泛和最成功的应用是性能测试，主要测试响应时间、传输速率和吞吐量等。此外，它也用于功能、可操作性和数据处理开发易用性等方面的测试［１］。按照Ｂｅｎｃｈｍａｒｋ的思想，它还可以有更广泛的用途，但目前性能以外有影响的Ｂｅｎｃｈｍａｒｋ测试很少。

Ｂｅｎｃｈｍａｒｋ测试有些偏重于硬件，有些偏重于软件，还有些注重整个系统。在硬件方面广泛应用于评价ＣＰＵ、内存、Ｉ／Ｏ接口和外围设备的性能，主要测试两个方面性能指标：一是硬件传输数据的带宽，称为带宽基准测试（Ｂａｎｄｗｉｄｔｈｂｅｎｃｈｍａｒｋ）；二是数据传输的延迟，称为延迟基准测试（Ｌａｔｅｎｃｙｂｅｎｃｈｍａｒｋ）。在软件方面，它用于评价操作系统、数据库和中间件

以及应用软件的数据处理能力。

１．２作用

Ｂｅｎｃｈｍａｒｋ测试对生产商和用户都很有价值。对生产厂商的作用是为产品进行市场宣传和发现系统的瓶颈；对用户的作用是指导产品的选择。Ｂｅｎｃｈｍａｒｋ测试最具吸引力的特点就是一个好的Ｂｅｎｃｈｍａｒｋ测试对于某一领域的技术发展有积极的导向作用，它会引导生产厂商采用新技术改进产品。

选择Ｂｅｎｃｈｍａｒｋ测试时需要有明确的目的，当用于产品宣传时，就应该选用权威机构的Ｂｅｎｃｈｍａｒｋ测试，并且结果得到其认可。而用于指导产品选择的Ｂｅｎｃｈｍａｒｋ测试，则需要清楚Ｂｅｎｃｈｍａｒｋ测试的结果是否与应用的特性有密切的关系。Ｂｅｎｃｈｍａｒｋ只能模拟一定的应用环境，不可能适用所有情况。

Ｂｅｎｃｈｍａｒｋ测试也会带来消极的影响，如生产厂商可能会相互攀比测试结果，一味地追求高指标，而忽略了实际应用的需要。因此，好的Ｂｅｎｃｈｍａｒｋ测试就是引导厂家和用户向正确的方面努力。

２选用Ｂｅｎｃｈｍａｒｋ测试规范

２．１规范来源

Ｂｅｎｃｈｍａｒｋ测试发展了２０多年，至今仍方兴未艾，许多组织和个人从事这方面的研究和开发。众多的Ｂｅｎｃｈｍａｒｋ规范或测试程序集为了不同的目的、产生于不同的背景，归纳起来有如下形式：

（１）权威组织制定的测试标准或开发的测试程序集。它们的测试标准、测试程序和测试参数及测试报告都是公开的，如ＳＰＥＣ、Ｌｉｎｐａｒｋ和ＴＰＣ组织的ＴＰＣ系列等。

（２）媒体机构开展的测试。一般由媒体机构建立测试实验室，组织测试。测试对象一般是大众电子类产品，测试规范和测试程序不一定由测试机构开发，测试结果发布在媒体的专栏上，如ＰＣＭａｇａｚｉｎｅ采用Ｆｕｔｕｒｅｍａｒｋ３ＤＭａｒｋ０５测试图像和声音处理的性能，采用ＮｅｔＩＱ’ｓＣｈａｒｉｏｔ测试ＶｏＩＰ的性能［２］。

（３）研究机构以研究为目的开发的测试规范或测试程序。

Ｂｅｎｃｈｍａｒｋ性能测试综述

王良

（中国人民大学计算机科学与技术系，北京１００８７２）

摘要基准（Ｂｅｎｃｈｍａｒｋ）测试是一种应用广泛、内容繁杂的测试技术，也是目前最主要的信息系统性能测试技术。文章对Ｂｅｎｃｈｍａｒｋ测试的规范和测试方法做了归纳总结，给出了选用Ｂｅｎｃｈｍａｒｋ测试的建议和开发Ｂｅｎｃｈｍａｒｋ测试规范需要解决的问题。最后介绍了有代表性的Ｂｅｎｃｈｍａｒｋ测试规范和程序集。

关键词基准测试测试性能

文章编号１００２－８３３１－（２００６）１５－００４５－０４文献标识码Ａ中图分类号ＴＰ３１１

ＳｕｍｍａｏｆＢｅｎｃｈｍａｒｋＰｅｒｆｏｒｍａｎｃｅＴｅｓｔ

ＷａｎｇＬｉａｎｇ

（ＤｅｐａｒｔｍｅｎｔｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，ＲｅｎｍｉｎＵｎｉｖｅｒｓｉｔｙｏｆＣｈｉｎａ，Ｂｅｉｊｉｎｇ１００８７２）Ａｂｓｔｒａｃｔ：Ａｓａｔｅｓｔｉｎｇｔｅｃｈｎｏｌｏｇｙｗｉｄｅｌｙａｐｐｌｉｅｄａｎｄｉｎｃｌｕｄｅｄｍｕｌｔｉｆａｒｉｏｕｓｃｏｎｔｅｎｔｓ，ａｂｅｎｃｈｍａｒｋｔｅｓｔｉｎｇｉｓｐｒｉｍａｒｙｉｍｐｏｒｔａｎｃｅｆｏｒｅｖａｌｕａｔｉｎｇｐｅｒｆｏｒｍａｎｃｅｏｆｉｎｆｏｒｍａｔｉ

ｏｎｓｙｓｔｅｍｓ．Ｔｈｉｓｐａｐｅｒｓｕｍｍａｒｉｚｅｓｓｐｅｃｉｆｉｃａｔｉｏｎｓａｎｄｔｅｓｔｉｎｇｍｅｔｈｏｄｓｏｆｂｅｎｃｈｍａｒｋｔｅｓｔｉｎｇ，ａｎｄｐｕｔｓｆｏｒｗａｒｄｆｏｒｓｅｌｅｃｔｉｎｇｉｔｆｒｏｍａｎｕｍｂｅｒｏｆｂｅｎｃｈｍａｒｋｔｅｓｔｓ．Ｆｉｎａｌｌｙ，ｔｙｐｉｃａｌｂｅｎｃｈｍａｒｋｓｐｅｃｉ－ｆｉｃａｔｉｏｎｓａｎｄｔｅｓｔｉｎｇｓｏｆｔｗａｒｅｔｏｏｌｓａｒｅｉｎｔｒｏｄｕｃｅｄ．

Ｋｅｙｗｏｒｄｓ：ｂｅｎｃｈｍａｒｋｔｅｓｔ，ｔｅｓｔ，ｐｅｒｆｏｒｍａｎｃｅ

基金项目：国家８６３高技术研究发展计划资助项目（编号：２００３ＡＡ４Ｚ３０３０）；国家教育部２１１工程资助项目

作者简介：王良（１９６３－），男，副教授，主要研究领域为软件工程，数据库。

４５

计算机工程与应用２００６．１５

这种测试结果不会由权威机构予以确认，测试程序可以免费得到。如Ｗｉｓｃｏｎｓｉｎ大学开发的非常有影响的ＷｉｓｃｏｎｓｉｎＢｅｎｃｈ－ｍａｒｋ；先由Ｓｕｎ后来是ＳＧＩ支持的ＬＭｂｅｎｃｈ；ＩＯｚｏｎｅ组织开发的文件系统测试程序集ＩＯｚｏｎｅＦｉｌｅｓｙｓｔｅｍＢｅｎｃｈｍａ

ｒｋ。

（４）开源测试项目开发的测试规范和测试程序。如开源的ＯＳＤＢ（ＯｐｅｎＳｏｕｒｃｅＤａｔａｂａｓｅＢｅｎｃｈｍａｒｋ）［３］。

（５）专业咨询公司开发的测试规范和测试程序。这类测试以盈利为目的，如ＤｏｃｕｌａｂｓＷｅｂ服务基准测试＠Ｂｅｎｃｈ［４］。

（６）生产厂家自行开发的测试规范和测试程序。如ＮＣ＆ＡＣ的磁盘Ｂｅｎｃｈｍａｒｋ测试系列工具集。

尽管有众多的Ｂｅｎｃｈｍａｒｋ测试规范和程序集，但目前还没有官方标准化组织发布的用于计算机系统的Ｂｅｎｃｈｍａｒｋ测试标准，生产厂商联合成立的机构和科研机构是Ｂｅｎｃｈｍａｒｋ的最主要发源地。在使用Ｂｅｎｃｈｍａｒｋ测试时，应根据测试的目的，搞清楚测试规范的权威性。

２．２测试分类

Ｂｅｎｃｈｍａｒｋ测试根据被测试对象的不同可分为两类：组件测试和系统测试。组件测试是指测试的重点是针对信息系统中的某一部件或某一子系统，如ＣＰＵ、内存、磁盘、总线、文件系统、网络设备等。系统测试则是对整个计算机系统或信息系统进行测试。在系统测试中，由于关注点不同，使用的

Ｂｅｎｃｈｍａｒｋ测试规范就不同，则测试作用和度量指标也不同。不论是哪种Ｂｅｎｃｈｍａｒｋ测试，都必须在一个完整的计算机系统上进行，因此，整个系统中的所有部分都可能对Ｂｅｎｃｈｍａｒｋ测试结果产生影响，特别是硬件的配置水平、操作系统、编译器和数据库管理系统。

使用不同的Ｂｅｎｃｈｍａｒｋ测试规范评价同一个被测试系统时，可能出现不一致的测试结果。在进行同类系统比较时，可能出现差异较大的结果。造成这一现象的原因复杂，但主要原因是所有的Ｂｅｎｃｈｍａｒｋ测试规范有各自的侧重点，揭示出的系统瓶颈存在差异。

２．３测试成本

Ｂｅｎｃｈｍａｒｋ测试有简单与复杂之分，所要付出的代价有大有小，需要注意的是大型Ｂｅｎｃｈｍａｒｋ测试成本非常高。Ｂｅｎｃｈ－ｍａｒｋ测试的成本构成如下：

（１）测试程序开发成本。它包括编写测试代码和测试数据。测试代码的开发需要对测试问题有深入的理解，并到有效的测试方法。

（２）硬件资源。所有的Ｂｅｎｃｈｍａｒｋ测试都需要计算机系统，甚至还要包括网络设备或一些大容量存储设备，如磁盘阵列、大规模机系统和网络系统等。

（３）测试管理和维护成本。

（４）测试执行成本。Ｂｅｎｃｈｍａｒｋ测试是一个循序渐进的过程（可能延续数个月），需要优化系统、优化测试程序。这部分的成本可概括为调优成本、学习成本、加载数据成本以及测试系统运行成本等。

（５）测试系统占用成本。是指被测试系统因测试而不能用于实际工作的成本。

３Ｂｅｎｃｈｍａｒｋ测试的共性特征

３．１规范的主要内容

Ｂｅｎｃｈｍａｒｋ测试规范众多，复杂程度差别很大，但是作为一种被广泛应用的测试思想，它们通常表现出许多共性。Ｂｅｎｃｈｍａｒｋ测试规范一般应具有的特性如下：

（１）有一个公开的测试规范。这个规范一般包括测试目的、测试模型描述、测试环境配置要求、度量指标定义和测试量方法、测试结果发布方式。

（２）一般提供可执行程序或源程序，测试程序又可分两部分：一部分是测试数据装载程序，或者直接提供测试数据；另一部是测试执行程序，为被测试系统提供测试负载。也有些Ｂｅｎｃｈｍａｒｋ测试规范不提供测试程序，如ＴＰＣ－Ｃ和ＴＰＣ－Ｗ等，这就需要测试者自行开发测试程序。

（３）提供度量指标的测量方法或计算方法的详细说明。度量指标要求在不同的被测试系统间具有可比性，如性能／价格比。度量指标可能很简单，如数据传输率；也可能很复杂，要求多个指标同时满足规范的要求，如ＴＰＣ－Ｃ中的指标ｔｐｍＣ是每秒钟新事务的数量，但同时还要求按比例提交５种类型其它事务，每１０个Ｎｅｗ－Ｏｒｄｅｒ事务要伴随有１０个Ｐａｙｍｅｎｔ事务、１个Ｄｅｌｉｖｅｒｙ事务、１个Ｏｒｄｅｒ－Ｓｔａｔｕｓ事务和１个Ｔａｃｋ－Ｌｅｖｅｌ事务，即Ｎｅｗ＿Ｏｒｄｅｒ占总事务数的４３．７％。

（４）测试结果可重现。即在相同的测试环境下，可重现测试结果。这一点很重要，Ｂｅｎｃｈｍａｒｋ测试的精髓就是提供一个可比较的结果。

（５）测试结果公开。一个Ｂｅｎｃｈｍａｒｋ测试结果是否公开取决于测试目的，公开程度一般应达到按公开的测试方法可再现测试结果。

３．２规范必须解决的问题

（１）目的：所有的Ｂｅｎｃｈｍａｒｋ测试都必须有明确的目的性，它应能够回答“为什么设计这个Ｂｅｎｃｈｍａｒｋ测试？”、“它用于测试什么？”这样的问题。

（２）度量指标：测试的结果是通过度量指标来表示的，一般Ｂｅｎｃｈｍａｒｋ测试有一个主要的指标和若干个辅助指标，辅助指标用于约束主指标的测量过程。

（３）负载：Ｂｅｎｃｈｍａｒｋ测试负载可归纳为三种，即处理大量数据、做高强度计算和传输大量数据。

（４）约束：包括对被测系统的优化约束、负载的配比及测试量指标之间的关系等。

（５）测试方法：或称测试程序的使用方法，一般包括步骤、测试持续时间和指标测量方法。

（６）测试结果发布形式：Ｂｅｎｃｈｍａｒｋ测试公开报告有严格的要求，对需要公开的内容有具体而明确的规定，一般要求其他人按公开报告的测试方法可再现测试结果。如ＴＰＣ－Ｃ测试的公开报告（ＦｕｌｌＤｉｓｃｌｏｓｅＲｅｐｏｒｔ）包括：处理器数目、操作系统、Ｃａｃｈｅ大小、内存容量、磁盘控制器类型、磁盘容量等等。

４常用Ｂｅｎｃｈｍａｒｋ测试介绍

Ｂｅｎｃｈｍａｒｋ测试规范和测试程序集非常多，以下只选取部分有代表性的、应用较广泛的Ｂｅｎｃｈｍａｒｋ测试进行介绍。４．１ＴＰＣ测试集［５］

ＴＰＣ（ＴｒａｎｓａｃｔｉｏｎＰｒｏｃｅｓｓｉｎｇＰｅｒｆｏｒｍａｎｃｅＣｏｕｎｃｉｌ）在１９８８年８月由ＯｍｒｉＳｅｒｌｉｎ和ＴｏｍＳａｗｙｅｒ创建，最初有８个成员，目前发展为２４个，其中包括国际知名厂商ｂｅａ、ＨＰ、ＩＢＭ、Ｉｎｔｅｌ、

４６

２００６．１５计算机工程与应用

Ｍｉｃｒｏｓｏｆｔ和Ｆｕｊｉｔｓｕ等。从１９８９年发布了第一个Ｂｅｎｃｈｍａｒｋ标准至今，ＴＰＣ总共发布了８个标准，它们是ＴＰＣ－Ａ、ＴＰＣ－Ｂ、ＴＰＣ－Ｃ、ＴＰＣ－Ｄ、ＴＰＣ－Ｒ、ＴＰＣ－Ｈ、ＴＰＣ－Ｗ和ＴＰＣ－Ａｐｐ，其中ＴＰＣ－Ａ、ＴＰＣ－Ｂ、ＴＰＣ－Ｄ和ＴＰＣ－Ｒ标准已经被ＴＰＣ组织宣布淘汰。最新发布的标准是２００４年１２月５日的ＴＰＣ－Ａｐｐ。ＴＰＣ测试从ＤＢＭＳ的ＡＣＩＤ、查询时间和联机事务处理能力等方面对ＤＢＭＳ进行性能测试。

ＴＰＣ所制定的Ｂｅｎｃｈｍａｒｋ测试标准可以从ｈｔｔｐ：／／ｗｗｗ．ｔｐｃ．ｏｒｇ网站下载。ＴＰＣ组织提供详细测试指导和测试结果的通过标准，在ＴＰＣ－Ｒ、ＴＰＣ－Ｈ、ＴＰＣ－Ｗ和ＴＰＣ－Ａｐｐ标准中提供装载数据的代码，但不提供测试程序。ＴＰＣ测试的报告要求完全公开，包括测试的源代码。

４．２ＳＰＥＣ［６］

ＳＰＥＣ（ＳｔａｎｄａｒｄＰｅｒｆｏｒｍａｎｃｅＥｖａｌｕａｔｉｏｎＣｏｒｐｏｒａｔｉｏｎ）是一家非盈利公司，致力于建立、维护和认可与高性能计算机Ｂｅｎｃｈｍａｒｋ标准。ＳＰＥＣ开发了７个方面的Ｂｅｎｃｈｍａｒｋ测试集，发布来自于成员单位和授权单位的测试结果。fread和fwrite的区别

ＳＰＥＣ在美国加州注册，由４５家成员、３１家伙伴和２家支持成员构成，囊括了欧美和日本的主要计算机厂商，如ＩＢＭ、Ｍｉｃｒｏｓｏｆｔ、Ｏｒａｃｌｅ、ＨＰ、Ｆｕｊｉｔｓｕ、ＮＥＣ、Ｄｅｌｌ、Ｈｉｔａｃｈｉ、Ｉｎｔｅｌ、Ｓｕｎ等。ＳＰＥＣ结果是具有权威性的测试结果。ＳＰＥＣ的测试集包括ＣＰＵ、图形／应用处理、高性能计算机／消息传递接口（ＭＰＩ）、Ｊａｖａ客户机／服务器、邮件服务器、网络文件系统、Ｗｅｂ服务器等。４．３ＬＩＮＰＡＣＫ［７］

ＬＩＮＰＡＣＫ（ＬｉｎｅａｒｓｙｓｔｅｍＰａｃｋａｇｅ）是在高性能计算机领域中最具影响的Ｂｅｎｃｈｍａｒｋ测试，它使用线性代数方程组，利用选主元高斯消去法按双精度（６４位）算法测量求解线性方程的稠密系统所需的时间。ＬＩＮＰＡＣＫ的结果按每秒浮点运算次数（Ｆｌｏｐｓ）表示。ＬＩＮＰＡＣＫ源于１９７４年４月美国Ａｒｇｏｎｎｅ国家实验室，该实验室的应用数学所主任ＪｉｍＰｏｏｌ提出ＬＩＮＰＡＣＫ计划，并得到美国ＮＳＦ的支持，ＬＩＮＰＡＣＫ计划由ＪａｃｋＤｏｎｇａｒｒａ主持实施。ＪａｃｋＤｏｎｇａｒｒａ教授不定期地发布报告《使用标准线性方程软件的各种计算机性能》。

ＬＩＮＰＡＣＫ在ＨＰＣ（ＨｉｇｈＰｅｒｆｏｒｍａｎｃｅＣｏｍｐｕｔｅｒ）领域的测试最具权威性，ＴＯＰ５００就是采用ＬＩＮＰＡＣＫ测试结果进行性能排序。在ＴＯＰ５００的网页ｈｔｔｐ：／／ｗｗｗ．ｔｏｐ５００．ｏｒｇ／ｌｉｓｔｓ／ｌｉｎｐａｃｋ．ｐｈｐ上可以到它选择ＬＩＮＰＡＣＫ的理由是“它被广泛应用和性能数值几乎对所有领域都有效”。为适应计算机系统体系的发展，

ＬＩＮＰＡＣＫ中又发展出两个项目，即ＬＡＰＡＣＫ（ＬｉｎｅａｒＡｌｇｅｂｒａＰＡＣＫａｇｅ）和ＥＩＳＰＡＣＫ，这样可以更好地运行在共享内存的向量超级计算机上。

ＬＩＮＰＡＣＫ由一组Ｆｏｒｔｒａｎ程序组成，测试分为三种情况：

（１）使用ＬＩＮＰＡＣＫ标准程序，处理１００×１００矩阵，不允许对程序做任何修改。

（２）使用ＬＩＮＰＡＣＫ标准程序，允许修改测试算法，追求尽可能高的性能。

（３）针对大规模并行计算系统的测试。

４．４ＩＤＣ平衡评价指标［８］

ＩＤＣ平衡分级（ＢａｌａｎｃｅｄＲａｔｉｎｇ）指标是由ＩＤＣ公司与圣迭哥超级计算机中心联合为ＨＰＣ测试而提出的指标体系，与其它许多Ｂｅｎｃｈｍａｒｋ测试的区别是：它不使用峰值指标作为评价被测系统性能的指标，而是试图用４个独立的分级表来更好地满足ＨＰＣ用户的个性需求。

ＩＤＣＢａｌａｎｃｅｄＲａｔｉｎｇ用于测试三个领域的性能：

（１）处理器性能；

（２）内存系统的能力；

（３）可伸缩能力。

ＩＤＣ平衡分级指标由４个分级列表组成，即１个综合列表和３个分别对应处理器、内存和可伸缩性（ｓｃａｌｉｎｇ）的分级列表。每个列表从０到１００进行分级，１００是最好得分。４．５ＮＰＢ［９］

ＮＰＢ（ＮａｓａＰａｒａｌｌｅｌＢｅｎｃｈｍａｒｋ）是由ＮＡＳＡ开发的一个用于评价并行超级计算机性能的小型程序集，又称为ＮＡＳ（Ｎｕ－ｍｅｒｉｃａｌＡｅｒｏｄｙｎａｍｉｃＳｉｍｕｌａｔｉｏｎ）Ｂｅｎｃｈｍａｒｋ测试。这个Ｂｅｎｃｈ－ｍａｒｋ测试来源于流体力学计算应用。ＮＡＳ发布了５个ＮＰＢ规范，它们是ＮＰＢ１、ＮＰＢ２、ＮＰＢ３、ＧｒｉｄＮＰＢ３和ＮＰＢ３Ｍｕｌｔｉ－ｚｏｎｅｖｅｒｓｉｏｎｓ：

（１）ＮＰＢ１：这是ＮＰＢ最基础的版本，由５个内核和３个模拟应用程序组成，以ＮＡＳＡＡｍｅｓ研究中心的研究为基础，模拟大规模计算和数据传输的流体动力学（ＣＦＤ，ＣｏｍｐｕｔａｔｉｏｎａｌＦｌｕｉｄＤｙｎａｍｉｃｓ）应用。

（２）ＮＰＢ２：基于ＭＰＩ（ＭｅｓｓａｇｅＰａｓｓｉｎｇＩｎｔｅｒｆａｃｅ），共有４个版本，

即ＮＰＢ－ＭＰＩ２．０／２．２／２．４和２．４Ｉ／Ｏ，较ＮＰＢ１有三个突出变化：一是为提高可移植性，采用Ｆｏｒｔｒａｎ－７７开发测试程序集；二是只实现ＮＰＢ１中的５个测试程序；三是在已有“ｃｌａｓｓＡ”和“ｃｌａｓｓＢ”的基础上，增加了“ｃｌａｓｓＣ”，从而扩大了测试规模。其中ＮＰＢ－ＭＰＩ２．４Ｉ／Ｏ利用ＢＴ（Ｂｌｏｃｋ－Ｔｒｉ＿ｄｉａｇｏｎａｌ）问题测试高性能计算系统的输出能力。

（３）ＮＰＢ３：为适应ＨＰＣ的体系结构变化又分为３个子版本，ＮＰＢ－ＯｐｅｎＭＰ３．０针对ｃｃＮＵＭＡ（ｃａｃｈｅｃｏｈｅｒｅｎｔＮｏｎ－Ｕｎｉ－ｆｏｒｍＭｅｍｏｒｙＡｃｃｅｓｓ）体系结构，ＮＰＢ－Ｊａｖａ３．０是用Ｊａｖａ语言实现的ＮＰＢ３．０，而ＮＰＢ－ＨｉｇｈＰｅｒｆｏｒｍａｎｃｅＦｏｒｔｒａｎ３．０是用ＨＰＦ（ＨｉｇｈＰｅｒｆｏｒｍａｎｃｅＦｏｒｔｒａｎ）实现的ＮＰＢ３．０。

（４）ＧｒｉｄＮＰＢ３：是ＮＰＢ３为适应网格（Ｇｒｉｄ）而开发的测试程序集，又称为ＮＧＢ（ＮＡＳＧｒｉｄＢｅｎｃｈｍａｒｋ），目前只有２００２发布的ＮＧＢ１．０。

（５）ＮＰＢ３Ｍｕｌｔｉ－ｚｏｎｅｖｅｒｓｉｏｎｓ：即ＮＰＢ３．０－ＭＺ，是ＮＰＢ的最新版本，于２００３年发布，目的是解决细粒度、混合型、多级并行计算机系统的测试问题，它是ＮＰＢ的扩展。

４．６ＨＰＰＣ［１０］

ＨＰＣＣ（ＨＰＣＣｈａｌｌｅｎｇｅ）是由美国ＤＡＲＰＡ（ＤｅｆｅｎｓｅＡｄ－ｖａｎｃｅｄＲｅｓｅａｒｃｈＰｒｏｊｅｃｔｓＡｇｅｎｃｙ）、ＮＳＦ和ＤｏＤ通过ＤＡＲＰＡＨＰＣＳ（ＨｉｇｈＰｒｏｄｕｃｔｉｖｉｔｙＣｏｍｐｕｔｉｎｇＳｙｓｔｅｍｓ）计划资助的项目，目的是为了有助于定义未来Ｐｅｔａｓｃａｌｅ规模超级计算机系统的性能范围。ＨＰＣＣ测试程序集由７个著名计算内核（ＳＴＲＥＡＭ、ＨＰＬ、矩阵乘－ＤＧＥＭＭ、并行矩阵转置－ＰＴＲＡＮＳ、ＦＦＴ、Ｒａｎｄｏｍ－Ａｃｃｅｓｓ、带宽和延迟测试－ｂ＿ｅｆｆ）组成，设计的目的是测试真实应用的性能，如内存访问、时空局部性等。

（１）ＨＰＬ（ＨｉｇｈＰｅｒｆｏｒｍａｎｃｅＬＩＮＰＡＣＫ）是ＬＩＮＰＡＣＫ的ＴＰＰ（ＴｏｗａｒｄＰｅａｋＰｅｒｆｏｒｍａｎｃｅ）的变种版本，通过求解线性方程组

４７

计算机工程与应用２００６．１５

测试系统的浮点计算能力。

（２）ＳＴＲＥＡＭ测试系统的内存持续访问带宽和响应计算的速度。

（３）ＲａｎｄｏｍＡｃｃｅｓｓ测量内存随机修改速度。

（４）ＰＴＲＡＮＳ测量多处理器系统的内存中大数据量数组的传输率。

（５）ＤＧＥＭＭ通过执行双精度实数矩阵乘法，测量浮点数的执行速度。

（６）ＦＦＴ通过执行一维双精度离散傅立叶变换，测量浮点运算的速度。

（７）通讯带宽和延迟测试是基于同时通讯的ｂ＿ｅｆｆ（ｅｆｆｅｃｔｉｖｅｂａｎｄｗｉｄｔｈｂｅｎｃｈｍａｒｋ）。

４．７ＩＯｚｏｎｅ［１１］

ＩＯｚｏｎｅ由Ｏｒａｃｌｅ的ＷｉｌｌｉａｍＤ．Ｎｏｒｃｏｔｔ发起，之后ＨＰ公司的ＤｏｎＣａｐｐｓ和ＴｏｍＭｃＮｅａｌ对其进行了完善。它是一个可运行在Ｌｉｎｕｘ、ＨＰ－ＵＸ、Ｓｏｌａｒｉｓ和Ｗｉｎｄｏｗｓ系统上的文件系统Ｂｅｎｃｈｍａｒｋ测试工具。ＩＯｚｏｎｅ的开发目的是分析计算机平台生产厂商的文件系统的Ｉ／Ｏ性能，为用户选择系统提供参考。ＩＯｚｏｎｅ将文件系统的Ｉ／Ｏ作为基本负载对文件系统进行Ｂｅｎｃｈｍａｒｋ测试，允许测试者调整参数，包括从很小到非常大的文件和不同的访问方式。ＩＯｚｏｎｅ可测试本地系统，也可测试客户机／服务器环境下的ＮＦＳ（ＮｅｔｗｏｒｋＦｉｌｅＳｙｓｔｅｍ）客户端文件访问。

ＩＯｚｏｎｅ的测试项包括：读／写、重复读／写、后向读、跨越读、流文件读／写系统库函数（ｆｒｅａｄ／ｆｗｒｉｔｅ）、随机读／写、偏移量读／写库函数（ｐｒｅａｄ／ｐｗｒｉｔｅ）、ＰＯＳＩＸ异步读／写和文件映射内存的系统库函数ｍｍａｐ。

４．８ＬＭｂｅｎｃｈ［１２］

Ｌｍｂｅｎｃｈ是由ＳＧＩ公司的ＬａｒｒｙＭｃＶｏｙ和ＨＰ公司的ＣａｒｌＳｔａｅｌｉｎ设计开发的一组小型Ｂｅｎｃｈｍａｒｋ测试程序集，它可以测试处理器、内存、网络、文件系统和磁盘中的数据传输和数据带宽。ＬＭｂｅｎｃｈ的作者希望能够在广泛的应用领域中发现被测试系统的性能瓶颈，并能识别、隔离和再现这些瓶颈。

ＬＭｂｅｎｃｈ由许多小测试程序组成，每个测试程序能够捕获应用中的某些特定性能问题。它遵守ＧＰＬ许可协议，可获得源代码。它可以运行在ＡＩＸ、ＢＳＤＩ、ＨＰ－ＵＸ、ＩＲＩＸ、Ｌｉｎｕｘ、ＦｒｅｅＢＳＤ、ＮｅｔＢＳＤ、ＯＳＦ／１、Ｓｏｌａｒｉｓ和ＳｕｎＯＳ系统上。

ＬＭｂｅｎｃｈ集中在测试带宽、延时和这两者的组合问题上：

（１）带宽基准测试，可细分为：被缓冲的文件读，利用系统调用ｂｃｏｐｙ的内存复制、内存读、内存写、管道（Ｐｉｐｅ）和ＴＣＰ传输。

（２）延时基准测试，可细分为：进程上下文切换、组网（其中包括：建立连接、管道、ＴＰＣ、ＵＤＰ和ＲＰＣ）、文件系统的建立和删除、进程创建、信号操作、系统调用代价和内存读延时。

（３）杂项，只有处理器时钟速度测试一项。５结语

本文在对大量Ｂｅｎｃｈｍａｒｋ测试进行研究分析的基础上，对Ｂｅｎｃｈｍａｒｋ测试的规范和一般测试方法做了归纳总结。Ｂｅｎｃｈｍａｒｋ测试在信息系统的性能评价方面最为成熟、应用最为广泛，其它方面的研究难度较大，至今缺少有影响的Ｂｅｎｃｈ－ｍａｒｋ测试规范或测试程序。大型系统的Ｂｅｎｃｈｍａｒｋ测试非常复杂，技术难度很大，成本较高。

随着信息技术的发展，Ｂｅｎｃｈｍａｒｋ测试的应用领域也在不断地拓展。除性能测试外，Ｂｅｎｃｈｍａｒｋ测试在计算机安全性［１３］、可伸缩性、可靠性［１４］和故障恢复能力［１５］等领域的研究也在不断地深入。

致谢在此，向对本文的工作给予支持和建议的同行，尤其是北京人大金仓信息技术有限公司表示衷心的感谢。

（收稿日期：２００６年１月）

参考文献

１．ＪｉｍＧｒａｙ，ＯｍｒｉＳｅｒｌｉｎ，ＣａｒｒｉｅＢａｌｌｉｎｇｅｒａｔｅｌ．ＴｈｅＢｅｎｃｈｍａｒｋＨａｎｄ－ｂｏｏｋ．ｈｔｔｐ：／／ｈｔｔｐ：／／ｗｗｗ．ｉｎｆｏｒｍａｔｉｋ．ｕｎｉ－ｔｒｉｅｒ．ｄｅ／￣ｌｅｙ／ｄｂ／ｂｏｏｋｓ／ｃｏｌｌｅｃｔｉｏｎｓ／ｇｒａｙ９１．ｈｔｍｌ，２００４－０２

２．ＷｉｒｅｌｅｓｓＴｅｓｔｉｎｇ．ＰＣＭａｇａｚｉｎｅ．ｈｔｔｐ：／／ｗｗｗ．ｐｃｍａｇ．ｃｏｍ／ｃａｔｅｇｏｒｙ２／０，４１４８，１９３８，００．ａｓｐ，２００５－０９

３．ＤＢｉｔｔｏｎ，ＣＴｕｒｂｙｆｉｌｌ．ＯｐｅｎＳｏｕｒｃｅＤａｔａｂａｓｅＢｅｎｃｈｍａｒｋＰｒｏｊｅｃｔａｔＣｏｍｐａｑＣｏｍｐｕｔｅｒＣｏｒｐｏｒａｔｉｏｎ．ｈｔｔｐ：／／ｏｓｄｂ．ｓｏｕｒｃｅｆｏｒｇｅ．ｎｅｔ／ｉｎｄｅｘ．ｐｈｐ？ｐａｇｅ＝ｆａｑ，２００５－１０

４．ｈｔｔｐ：／／ｗｗｗ．ｄｏｃｕｌａｂｓ．ｃｏｍ／Ｄｏｗｎｌｏａｄｓ／ＷｅｂＳｅｒｖｉｃｅＰｅｒｆｏｒｍａｎｃｅ＿０４－０３．ｐｄｆ，２００５－０９

５．ＯｍｒｉＳｅｒｌｉｎ，ＴｏｍＳａｗｙｅｒ．ＴＰＣＢｅｎｃｈｍａｒｋｓ．ｈｔｔｐ：／／ｗｗｗ．ｔｐｃ．ｏｒｇ／ｉｎｆｏｒｍａ－ｔｉｏｎ／ｂｅｎｃｈｍａｒｋｓ．ａｓｐ，２００５－１０

６．ＫａｉｖａｌｙａＤｉｘｉｔ，ＴｏｍＳｋｏｒｎｉａ．ＳｔａｎｄａｒｄＰｅｒｆｏｒｍａｎｃｅＥｖａｌｕａｔｉｏｎＣｏｒｐｏ－ｒａｔｉｏｎ（ＳＰＥＣ）．ｈｔｔｐ：／／ｗｗｗ．ｓｐｅｃ．ｏｒｇ／ｏｓｇ／ｗｅｂ９９／，２００５－１０

７．ＪａｃｋＤｏｎｇａｒｒａ，ＪｉｍＢｕｎｃｈ，ＣｌｅｖｅＭｏｌｅｒｅｔａｌ．ＮｅｔｌｉｂＩｎｄｅｘｆｏｒＬＩＮ－ＰＡＣＫ．ｈｔｔｐ：／／ｗｗｗ．ｎｅｔｌｉｂ．ｏｒｇ／ｌｉｎｐａｃｋ，２００５－１０

８．ＢＥＮＣＨＭＡＲＫＳ．ｈｔｔｐ：／／ｗｗｗ．ｈｐｃｕｓｅｒｆｏｒｕｍ．ｃｏｍ／ｂｅｎｃｈｍａｒｋ／，２００５－１０９．ＲｕｐａｋＢｉｓｗａｓ．ｈｔｔｐ：／／ｗｗｗ．ｎａｓ．ｎａｓａ．ｇｏｖ／Ｓｏｆｔｗａｒｅ／ＮＰＢ，２００５－０９

１０．ＰｉｏｔｒＬｕｓｚｃｚｅｋ，ＪａｃｋＪＤｏｎｇａｒｒａ，ＤａｖｉｄＫｏｅｓｔｅｒｅｔａｌ．ＩｎｔｒｏｄｕｃｔｉｏｎｔｏｔｈｅＨＰＣＣｈａｌｌｅｎｇｅＢｅｎｃｈｍａｒｋ．ｈｔｔｐ：／／ｉｃｌ．ｃｓ．ｕｔｋ．ｅｄｕ／ｈｐｃｃ／Ｓｕｉｔｅ，ｈｐｃｃ－ｃｈａｌｌｅｎｇｅ－ｂｅｎｃｈｍａｒｋ．ｐｄｆ，２００５－０３

１１．ＷｉｌｌｉａｍＤＮｏｒｃｏｔｔ，ＤｏｎＣａｐｐｓ．ＩＯｚｏｎｅＦｉｌｅｓｙｓｔｅｍＢｅｎｃｈｍａｒｋ．ｈｔｔｐ：／／ｗｗｗ．ｉｏｚｏｎｅ．ｏｒｇ，２００５－０９

１２．ＬａｒｒｙＭｃＶｏｙ，ＣａｒｌＳｔａｅｌｉｎ．ＬＭｂｅｎｃｈ－ＴｏｏｌｓｆｏｒＰｅｒｆｏｒｍａｎｃｅＡｎａｌｙｓｉｓ．ｈｔｔｐ：／／ｗｗｗ．ｂｉｔｍｏｖｅｒ．ｃｏｍ／ｌｍｂｅｎｃｈ／，２００５－１１

１３．ＳｅｃｕｒｉｓＩｎｃ．ＳｅｃｕｒｉｔｙＢｅｎｃｈｍａｒｋ．ｃｏｍ．ｈｔｔｐ：／／ｗｗｗ．ｓｅｃｕｒｉｔｙｂｅｎｃｈｍａｒｋ．ｃｏｍ／，２００５－１０

１４．ＭＤａｌＣｉｎ．ＤｅｐｅｎｄａｂｉｌｉｔｙＢｅｎｃｈｍａｒｋｉｎｇ．ｈｔｔｐ：／／ｗｗｗ．ｅｓａｔ．ｋｕｌｅｕｖｅｎ．ａｃ．ｂｅ／ｅｌｅｃｔａ／ｄｂｅｎｃｈ，２００３－０９

１５．ＤａｖｅＰａｔｔｅｒｓｏｎ，ＡｒｍａｎｄｏＦｏｘ．ＴｈｅＢｅｒｋｅｌｅｙ／ＳｔａｎｆｏｒｄＲｅｃｏｖｅｒｙ－Ｏｒｉ－ｅｎｔｅｄＣｏｍｐｕｔｉｎｇ（ＲＯＣ）Ｐｒｏｊｅｃｔ．ｈｔｔｐ：／／ｒｏｃ．ｃｓ．ｂｅｒｋｅｌｅｙ．ｅｄｕ／，２００５－１１

４８

２００６．１５计算机工程与应用

688IT编程网

Benchmark性能测试综述

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

Benchmark性能测试综述

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式