是科研人就要快!加速你的算法!--688IT编程网

是科研⼈就要快！加速你的算法！

在科研中，⼤多数论⽂其实还是看精度和效果的，对于速度其实没有那么⾼的追求，很多⼈⽤速度评价⾃⼰算法的复杂度很低，但实际上这是不准确的，当然在精度占优的情况下，能够提⾼速度，给⾃⼰的实验结果增彩。

关于算法程序的加速，在动⼿前先要按照如下流程进⾏思考，以决定从哪⾥⼊⼿加速。

算法优化，指降低算法计算复杂度，设计新算法快速求解，⽐如Hungarian匹配算法。或牺牲⼀些内存，预计算⼀些重复计算的过程，减少程序层⾯的复杂度。

语⾔更换，指将⾃⼰算法迁移到更加底层的算法，越是低级的算法，执⾏速度越快。常见地，将Matlab、Python等解释性代码移植到C++平台，往往有5-20倍的加速效果。

嵌入式多线程编程算法并⾏，指将⾃⼰算法的独⽴计算部分，分成⼏块，利⽤CPU指令集、多核或GPU的特性实现加速。多核并⾏和CUDA并⾏最为常见。

汇编加速，将⾃⼰的⼀⽚代码指定为⾃⼰设计的汇编语⾔。多种C++编译器实际上也是将语⾔转换为汇编代码，对汇编进⾏加速在嵌⼊式中常见。(该⽅法对平台有需求，并不常见)

硬件加速，利⽤特殊硬件处理特殊算法，降低CPU架构的复杂度。常见的就是FPGA。

光学加速，利⽤参数制作特定的光散射模型，输⼊⽬标光源直接得到输出结果。（离谱的加速⽅式，⽬前停留在概念）

强烈注意：

所有的优化，都是在⾃⼰算法流程不变的前提下进⾏优化，因为优化后的程序，⾼度⾯向过程，如果算法某个流程要换以达到更⾼精度，则改动⼯作量较⼤。

下⾯我对每种加速⽅法进⾏详细的说明（本⽂只列举加速⽅法，并给出⼏种参考⽰例，并不会详细讲解如何使⽤，仅介绍思想）。

加速⽅法详解

1 算法优化算法优化分为两种类型：① 降低算法复杂度；② 减少重复计算过程。

降低算法复杂度。在求解最优值时候，我们最容易想到的就是暴⼒求解。当数据量特别⼤的时候，这种⽅法耗时就异常⾼。在查、最有匹配中，有⼤量的优化算法解决这类问题（图论、数据结构、算法导论介绍了很多⽅法）。

例如，匈⽛利算法（Hungarian Algorithm）与KM算法（Kuhn-Munkres Algorithm）是在多⽬标跟踪的论⽂中见到的两种算法。他们都是⽤来解决多⽬标跟踪中的数据关联问题。匈⽛利算法与KM算法都是为了求解⼆分图的最⼤匹配问题。下图就是其中的⼆分图，⼆分图呢就是能分成两组，U,V。其中，U上的点不能相互连通，只能连去V中的点，同理，V中的点不能相互连通，只能连去U中的点。这样，就叫做⼆分图。在图像中，可以把⼆分图理解为视频中连续两帧中的所有检测框，第⼀帧所有检测框的集合称为U，第⼆帧所有检测框的集合称为V。同⼀帧的不同检测框不会为同⼀个⽬标，所以不需要互相关联，相邻两帧的检测框需要相互联通，最终将

相邻两帧的检测框尽量完美地两两匹配起来。⽽求解这个问题的最优解就要⽤到匈⽛利算法或者KM算法。

减少重复计算过程。这个⼀般来说具体算法具体分析，⼀般要么是记录共⽤的中间变量，要么就是把与输⼊⽆关的数据，在初始化变量时候计算好。简单来说，拟合参数时候，我们经常会⽤到公式的形式，即，这时候，定义，那么的形式，如果能预计算的话，每次获得这个矩阵经过有限次加法即可。2 语⾔更换越是⾼级的语⾔，开发效率越⾼，执⾏速度越慢。尽量⽤当前语⾔的官⽅库，官⽅库往往对算法做了⾜够的加速。将部分简单函数编译成C++进⾏调⽤，⽐如Python调⽤C++，或Matlab调⽤C++。对并⾏性较强的，且⽤了少量STL库的算法使⽤CUDA加速。⼤矩阵运算考虑Eigen，cublas等专⽤库。对并⾏性较强，且⽤了⼤量STL库的算法使⽤多核并⾏加速。

将⾼级代码转换为C++项⽬，这也是最简单的转换⽅法了，这样开发出的算法⾮常容易落地。

3 算法并⾏

并⾏思想从⼩到⼤可以总结为：指令集开发→多核并⾏→CUDA并⾏，在深度学习中，TensorRT是⼀种更⾼级的CNN⽹络加速⽅法。

3.1 指令集加速

Ax =b x =(A A )A b ′−1′A =

(a ,a ,...,a )12n ′A A =′a a ∑i =1n 1T 1a a 1T

指令集加速，⼀般是针对CPU架构进⾏的底层优化，常见于OpenCV和Tensorflow的CPU版本。之所以OpenCV是个经典的开源图像框架，很⼤原因是因为其在多个平台上执⾏效率很⾼，其中底层的优化，⽐如指令集优化，起到了关键作⽤。数据并⾏的两种实现在计算机体系中，数据并⾏有两种实现路径：

MIMD（Multiple Instruction Multiple Data，多指令流多数据流）。MIMD的表现形式主要有多发射、多线程、多核⼼，在当代设计的以处理能⼒为⽬标驱动的处理器中，均能看到它们的⾝影。

SIMD（Single Instruction Multiple Data，单指令流多数据流）。随着多媒体、⼤数据、⼈⼯智能等应⽤的兴起，为处理器赋予SIMD处理能⼒变得愈发重要，因为这些应⽤存在⼤量细粒度、同质、独⽴的数据操作，⽽SIMD天⽣就适合处理这些操作。SIMD本⾝并不是⼀种指令集，⽽是⼀种处理思想，现在的⼀些指令集都⽀持SIMD 。（简单来说，计算1000维向量的点积，乘法是独⽴的，多核⼼不值得，这时候就可以利⽤指令集⼀次性计算4次或8次乘法，同样的，之后的加法也同样可以⽤指令集计算）CPU指令集的发展（针对Intel的x86指令集系列）：

MMX指令集 (Multi Media eXtension, 多媒体扩展指令集)。MMX指令集率先在Pentium处理器中使⽤，MMX指令集⽀持算数、⽐较、移位等运算，MMX指令集的向量寄存器是64bit。

SSE指令集（Streaming SIMD Extensions，单指令多数据流扩展），所有的SSE系列指令的向量寄存器都是128bit，也就是⼀次性可以计算4个int。SSE最早出现在1999年，在之后的近10年内，推出了SSE,SSE2，SSE3，SSE4.1，SSE4.2。

AVX指令集（Advanced Vector Extensions，⾼级向量扩展）。AVX指令集是在之前的SSE128位扩展到和256位的单指令多数据流。AVX出现在2008年，之后出了AVX2，2014年，AVX-512将数据bit由256bit扩展到了512bit。AVX是⽬前⽐较常⽤的指令集，256位的类型可以⼀次计算4个double，有效的提升性能。利⽤CPU-Z软件可以查看电脑的CPU信息，

关于指令集的使⽤，在博客给出的源码中，使⽤了AVX指令集对代码进⾏处理，为了⽅便理解使⽤，我们以计算椭圆的采样点为例，其中分别为椭圆的中⼼点、长短轴及旋转⾓。表⽰椭圆参数⽅程⽤于采样。指令集的⽂档参考。

x ,y ,R ,r ,θo o cost ,sint {x =Rcosθcost −rsinθsint +x o y =Rsinθcost +rcosθsint +y o

则利⽤指令集计算采样点的⽅法如下所⽰，显然原来需要计算VALIDATION_NUMBER次采样点的过程，现在仅需要

VALIDATION_NUMBER/8次(sizeof(__m256) / sizeof(float)=8)。

// 初始化旋转变换矩阵，这⾥angleRot = \theta

const float _ROT_TRANS[4]={ R *cos(angleRot),-r *sin(angleRot),

R *sin(angleRot), r *cos(angleRot)};

// Estimate the sampling points number N. Note: N = RoundEllipseCircum;

// Use SSE to faster the step of ellipse validation.

/ 考虑到指令集实际上⼀次性计算8个数据，

// 则_mm256_set1_ps的⽬的是⽤⼀个float初始化⼀个__m256

// 举个例⼦：假如需要初始化的float为k，则调⽤_mm256_set1_ps之后得到

// [k,k,k,k,k,k,k,k]

__m256 _rot_trans_0 =_mm256_set1_ps(_ROT_TRANS[0]),

_rot_trans_1 =_mm256_set1_ps(_ROT_TRANS[1]),

_rot_trans_2 =_mm256_set1_ps(_ROT_TRANS[2]),

_rot_trans_3 =_mm256_set1_ps(_ROT_TRANS[3]);

__m256 x_center =_mm256_set1_ps(xyCenter[0]),

y_center =_mm256_set1_ps(xyCenter[1]);

__m256 tmp_x, tmp_y, tmp_wx, tmp_wy, tmp_w;

for(int i =0; i < VALIDATION_NUMBER; i +=sizeof(__m256)/sizeof(float))

{

// ⼀次性读取256位数据，实际上就是加载8个float到base_x,base_y

// 这⾥的base_x = cost, base_y = sint

__m256 base_x =_mm256_load_ps(vldBaseDataX + i);

__m256 base_y =_mm256_load_ps(vldBaseDataY + i);

// calculate location x

// _mm256_mul_ps 计算乘法：计算每个float的乘法，_mm256_add_ps

// 举个例⼦：两个__m256数据为[k1,k2,...,k8], [p1,p2,...,p8]

// 调⽤_mm256_mul_ps之后，得到[k1p1,k2p2,...,k8p8]

// 调⽤_mm256_add_ps之后，得到[k1+p1,k2+p2,...,k8+p8]

tmp_x =_mm256_add_ps(

_mm256_mul_ps(_rot_trans_0, base_x),

_mm256_mul_ps(_rot_trans_1, base_y));

tmp_x =_mm256_add_ps(tmp_x, x_center);

// calculate location y

tmp_y =_mm256_add_ps(

_mm256_mul_ps(_rot_trans_2, base_x),

_mm256_mul_ps(_rot_trans_3, base_y));

tmp_y =_mm256_add_ps(tmp_y, y_center);

// Save location x, y

// _mm256_storeu_ps的⽬的是将计算后的8个float存⼊float矩阵中

_mm256_storeu_ps(sample_x + i, tmp_x);

_mm256_storeu_ps(sample_y + i, tmp_y);

}

其实后期测试速度发现，实际加速效果没有特别明显，毕竟⽤了⼤量中间变量，且函数的调⽤传递了参数，指令集实际上在汇编中⽤的多，如果在代码中内嵌指令集可能效果会更好。

参考资料：

3.2 CPU 多核编程

多核编程可以理解为就是多线程编程，总体上可以分为三个部分：OpenMP并⾏，opencv并⾏和多线程并⾏。在设计相关代码时候，切记变量可以被多个线程访问，但同⼀时间只能被⼀个线程修改，如果多个线程想修改同⼀个变量，可使⽤原⼦操作或加锁。当然，多核编程不⽌这些，还有tbb，mkl等等。

OpenMP 并⾏。这种并⾏办法是最简单的⼀种并⾏⽅法，直接在for循环前⾯添加#pragma omp parallel for即可，程序会⾃动将for循环分解。值得注意的是，该⽅法是在for循环前开始创建线程，结束后并销毁，这个过程会产⽣⼀些时间消耗，⼤约在3-5ms之间，做实时性应⽤开发的时候需要注意这个问题。下⾯给出了⼀个并⾏⽰例。当然openmp有多种操作函数，感兴趣去对应的开发教程即可。

#include<iostream>

#include<omp.h>

using namespace std;

int main(){

omp_set_num_threads(4);

#pragma omp parallel for

for(int i =0; i <3; i++)

printf("i = %d, I am Thread %d\n", i,omp_get_thread_num());

getchar();

}

// i = 0, I am Thread 0

// i = 1, I am Thread 1

// i = 2, I am Thread 2

OpenCV 并⾏。 OpenCV提供了⼀种并⾏计算函数parallel_for_，内部集成多种并⾏框架。在c++11中，可以不必定⼀个类去继承并⾏计算循环体类ParallelLoopBody，可以直接使⽤。

688IT编程网

是科研人就要快!加速你的算法!

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

688IT编程网

是科研人就要快!加速你的算法!

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法 正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

nginx map用法正则

nginx map用法正则