PaddleInference原生推理库--688IT编程网

PaddleInference原⽣推理库

Paddle Inference原⽣推理库

深度学习⼀般分为训练和推理两个部分，训练是神经⽹络“学习”的过程，主要关注如何搜索和求解模型参数，发现训练数据中的规律，⽣成模型。有了训练好的模型，就要在线上环境中应⽤模型，实现对未知数据做出推理，这个过程在AI领域叫做推理部署。⽤户可以选择如下四种部署应⽤⽅式之⼀：

服务器端⾼性能部署：将模型部署在服务器上，利⽤服务器的⾼性能帮助⽤户处理推理业务。

模型服务化部署：将模型以线上服务的形式部署在服务器或者云端，⽤户通过客户端请求发送需要推理的输⼊内容，服务器或者云通过响应报⽂将推理结果返回给⽤户。

移动端部署：将模型部署在移动端上，例如⼿机或者物联⽹的嵌⼊式端。

Web端部署：将模型部署在⽹页上，⽤户通过⽹页完成推理业务。

本⽂将会为⼤家讲解如何使有飞桨paddle实现服务器端⾼性能部署。

在实际应⽤中，推理部署阶段会⾯临和训练时完全不⼀样的硬件环境，当然也对应着不⼀样的计算性

能要求。因此上线部署可能会遇到各种问题，例如上线部署的硬件环境和训练时不同；推理计算耗时太长, 可能造成服务不可⽤；模型占⽤内存过⾼⽆法上线。但是在实际业务中，训练得到的模型，就是需要能在具体⽣产环境中正确、⾼效地实现推理功能，完成上线部署。对⼯业级部署⽽⾔，条件往往⾮常繁多⽽且苛刻，不是每个深度学习框架都对实际⽣产部署上能有良好的⽀持。⼀款对推理⽀持完善的的框架，会让模型上线⼯作事半功倍。

飞桨paddle作为源于产业实践的深度学习框架，在推理部署能⼒上有特别深厚的积累和打磨，提供了性能强劲、上⼿简单的服务器端推理库Paddle Inference，帮助⽤户摆脱各种上线部署的烦恼。

Paddle Inference是什么

飞桨paddle框架的推理部署能⼒经过多个版本的升级迭代，形成了完善的推理库Paddle Inference。Paddle Inference功能特性丰富，性能优异，针对不同平台不同的应⽤场景进⾏了深度的适配优化，做到⾼吞吐、低时延，保证了飞桨paddle模型在服务器端即训即⽤，快速部署。

主流软硬件环境兼容适配

⽀持服务器端X86 CPU、NVIDIA GPU芯⽚，兼容Linux/macOS/Windows系统。

⽀持飞桨paddle所有模型

⽀持所有飞桨paddle训练产出的模型，真正即训即⽤。

多语⾔环境丰富接⼝可灵活调⽤

⽀持C++, Python, C, Go和R语⾔API, 接⼝简单灵活，20⾏代码即可完成部署。可通过Python API，实现对性能要求不太⾼的场景快速⽀持；通过C++⾼性能接⼝，可与线上系统联编；通过基础的C API可扩展⽀持更多语⾔的⽣产环境。

【性能测⼀测】

通过⽐较ResNet50和BERT模型的训练前向耗时和推理耗时，可以观测到Paddle Inference有显著的加速效果。

说明：测试耗时的⽅法，使⽤相同的输⼊数据先空跑1000次，循环运⾏1000次，每次记录模型运⾏的耗时，最后计算出模型运⾏的平均耗时。

基于Paddle Inference的单机推理部署，即在⼀台机器进⾏推理部署。相⽐Paddle Serving在多机多卡下进⾏推理部署，单机推理部署不产⽣多机通信与调度的时间成本，能够最⼤程度地利⽤机器的Paddle Inference算⼒来提⾼推理部署的性能。对于拥有⾼算⼒机器，已有线上业务系统服务，期望加⼊模型推理作为⼀个⼦模块，且对性能要求较⾼的⽤户，采⽤单机推理部署能够充分利⽤计算资源，

加速部署过程。

Paddle Inference⾼性能实现

内存/显存复⽤提升服务吞吐量

在推理初始化阶段，对模型中的OP输出Tensor 进⾏依赖分析，将两两互不依赖的Tensor在内存/显存空间上进⾏复⽤，进⽽增⼤计算并⾏量，提升服务吞吐量。

细粒度OP横向纵向融合减少计算量

在推理初始化阶段，按照已有的融合模式将模型中的多个OP融合成⼀个OP，减少了模型的计算量的同时，也减少了 Kernel Launch的次数，从⽽能提升推理性能。⽬前Paddle Inference⽀持的融合模式多达⼏⼗个。

内置⾼性能的CPU/GPU Kernel

内置同Intel、Nvidia共同打造的⾼性能kernel，保证了模型推理⾼性能的执⾏。

⼦图集成TensorRT加快GPU推理速度

Paddle Inference采⽤⼦图的形式集成TensorRT，针对GPU推理场景，TensorRT可对⼀些⼦图进⾏优化，包括OP的横向和纵向融合，过滤冗余的OP，并为OP⾃动选择最优的kernel，加快推理速度。

⼦图集成Paddle Lite轻量化推理引擎

Paddle Lite 是飞桨paddle深度学习框架的⼀款轻量级、低框架开销的推理引擎，除了在移动端应⽤外，还可以使⽤服务器进⾏ Paddle Lite 推理。Paddle Inference采⽤⼦图的形式集成 Paddle Lite，以⽅便⽤户在服务器推理原有⽅式上稍加改动，即可开启 Paddle Lite 的推理能⼒，得到更快的推理速度。使⽤ Paddle Lite 可⽀持在百度昆仑等⾼性能AI芯⽚上执⾏推理计算。

⽀持加载PaddleSlim量化压缩后的模型

PaddleSlim是飞桨paddle深度学习模型压缩⼯具，Paddle Inference可联动PaddleSlim，⽀持加载量化、裁剪和蒸馏后的模型并部署，由此减⼩模型存储空间、减少计算占⽤内存、加快模型推理速度。其中在模型量化⽅⾯，Paddle Inference在X86 CPU上做了深度优化，常见分类模型的单线程性能可提升近3倍，ERNIE模型的单线程性能可提升2.68倍。

推理部署实战

场景划分

Paddle Inference应⽤场景，按照API接⼝类型可以分C++, Python, C, Go和R。Python适合直接应⽤，可通过Python API实现性能要求不太⾼的场景的快速⽀持；C++接⼝属于⾼性能接⼝，可与线上系统联编；C接⼝是基于C++，⽤于⽀持更多语⾔的⽣产环境。

不同接⼝的使⽤流程⼀致，但个别操作细节存在差异。其中，⽐较常见的场景是C++和Python。因此本⽂以这两类接⼝为例，介绍如何使⽤Pdddle Inference API进⾏单机服务器的推理预测部署。

推理部署流程

使⽤Paddle Inference进⾏推理部署的流程如下所⽰。详细API⽂档请参考

1. 配置推理选项。Config是飞桨paddle提供的配置管理器API。在使⽤Paddle Inference进⾏推理部署过程中，需要使⽤Config详细地配

置推理引擎参数，包括但不限于在何种设备（CPU/GPU）上部署、加载模型路径、开启/关闭计算图分析优化、使⽤

MKLDNN/TensorRT进⾏部署的加速等。参数的具体设置需要根据实际需求来定。

2. 创建Predictor。Predictor是飞桨paddle提供的推理引擎API。根据设定好的推理，配置Config创建推理引擎Predictor，也就是推理引擎

的⼀个实例。创建期间会进⾏模型加载、分析和优化等⼯作。

3. 准备输⼊数据。准备好待输⼊推理引擎的数据，⾸先获得模型中每个输⼊的名称以及指向该数据块（CPU或GPU上）的指针，再根据

名称将对应的数据块拷贝进Tensor。飞桨paddle采⽤Tensor作为输⼊/输出数据结构，可以减少额外的拷贝，提升推理性能。

4. 调⽤Predictor.Run()执⾏推理。

5. 获取推理输出。与输⼊数据类似，根据输出名称将输出的数据（矩阵向量）由Tensor拷贝⾄（CPU或GPU上）以进⾏后续的处理。

6. 最后，获取输出并不意味着预测过程的结束，在⼀些特别的场景中，单纯的矩阵向量不能明⽩有什么意义。进⼀步地，需要根据向量

本⾝的意义，解析数据，获取实际的输出。举个例⼦，transformer 翻译模型，将字词变成向量输⼊到预测引擎中，⽽预测引擎反馈，仍然是矩阵向量。但是这些矩阵向量是有意义的，利⽤这些向量去翻译结果所对应的句⼦，就完成了使⽤ transformer 翻译的过程。

以上操作的具体使⽤⽅法和⽰例会在下⽂给出。

前提准备

1. 安装或源码编译推理库

使⽤飞桨paddle进⾏推理部署，需要使⽤与当前部署环境⼀致的Paddle推理库。

如果使⽤Python API，只需本地电脑成功安装Paddle，安装⽅法请参考。

如果使⽤C++/C API，需要下载或编译推理库。推荐先从飞桨paddle官⽹下载推理库，下载请点击。如果官⽹提供的推理库版本⽆法满⾜需求，或想要对代码进⾏⾃定义修改，可以采⽤源码编译的⽅式获取推理库，推理库的编译请参考前⽂“源码编译”。

2. 导出模型⽂件

模型部署⾸先要有部署的模型⽂件。在模型训练过程中或者模型训练结束后，可以通过接⼝来导出标准化的模型⽂件。

save_inference_model可以根据推理需要的输⼊和输出, 对训练模型进⾏剪枝, 去除和推理⽆关部分, 得到的模型相⽐训练时更加精简，适合进⼀步优化和部署。

⽤⼀个简单的例⼦来展⽰下导出模型⽂件的这⼀过程。

import numpy as np

import paddle

as nn

import paddle.optimizer as opt

BATCH_SIZE = 16

BATCH_NUM = 4

EPOCH_NUM = 4

IMAGE_SIZE = 784

CLASS_NUM = 10

# define a random dataset

class RandomDataset(paddle.io.Dataset):

def __init__(self, num_samples):

self.num_samples = num_samples

def __getitem__(self, idx):

image = np.random.random([IMAGE_SIZE]).astype('float32')

label = np.random.randint(0, CLASS_NUM - 1, (1, )).astype('int64') return image, label

def __len__(self):

return self.num_samples

class LinearNet(nn.Layer):

def __init__(self):

super(LinearNet, self).__init__()

self._linear = nn.Linear(IMAGE_SIZE, CLASS_NUM)

@_static

def forward(self, x):

return self._linear(x)

def train(layer, loader, loss_fn, opt):

for epoch_id in range(EPOCH_NUM):

for batch_id, (image, label) in enumerate(loader()):

out = layer(image)

loss = loss_fn(out, label)

loss.backward()

opt.step()

opt.clear_grad()

print("Epoch {} batch {}: loss = {}".format(

epoch_id, batch_id, np.mean(loss.numpy())))

# create network

layer = LinearNet()

loss_fn = nn.CrossEntropyLoss()

adam = opt.Adam(learning_rate=0.001, parameters=layer.parameters())

# create data loader

dataset = RandomDataset(BATCH_NUM * BATCH_SIZE)

loader = paddle.io.DataLoader(dataset,

batch_size=BATCH_SIZE,

shuffle=True,

drop_last=True,

num_workers=2)

# train

train(layer, loader, loss_fn, adam)

# save

path = "del/linear"

paddle.jit.save(layer, path)

Epoch 0 batch 0: loss = 2.4462146759033203

Epoch 0 batch 1: loss = 2.2266905307769775

Epoch 0 batch 2: loss = 2.4391372203826904

Epoch 0 batch 3: loss = 2.304720163345337

Epoch 1 batch 0: loss = 2.382601022720337

Epoch 1 batch 1: loss = 2.2704334259033203

Epoch 1 batch 2: loss = 1.9981389045715332

Epoch 1 batch 3: loss = 1.9509283304214478

Epoch 2 batch 0: loss = 2.5417778491973877

Epoch 2 batch 1: loss = 2.5323636531829834

Epoch 2 batch 2: loss = 2.3336782455444336

Epoch 2 batch 3: loss = 2.2187507152557373

Epoch 3 batch 0: loss = 2.4967103004455566

Epoch 3 batch 1: loss = 2.406843662261963

Epoch 3 batch 2: loss = 2.668104410171509

Epoch 3 batch 3: loss = 2.6359691619873047

/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages/paddle/fluid/layers/utils.py:77: DeprecationWarning: Using or importing the ABCs from 'collections' instead of from 'collections.abc' is deprecated, and in 3.8 it will stop working

return (isinstance(seq, collections.Sequence) and

该程序运⾏结束后，会在本⽬录中⽣成⼀个del⽬录，⽬录中包含linear.pdmodel, linear.pdiparams 两个⽂件，linear.pdmodel⽂件表⽰模型的结构⽂件，linear.pdiparams表⽰所有参数的融合⽂件。

基于C++ API的推理部署

为了简单⽅便地进⾏推理部署，飞桨paddle提供了⼀套⾼度优化的C++ API推理接⼝。下⾯对各主要API使⽤⽅法进⾏详细介绍。API详细介绍

在上述的推理部署流程中，了解到Paddle Inference预测包含了以下⼏个⽅⾯：

配置推理选项

创建predictor

准备模型输⼊

模型推理

获取模型输出

先⽤⼀个简单的程序介绍这⼀过程：

std::unique_ptr<paddle_infer::Predictor> CreatePredictor() {

// 通过Config配置推理选项

random翻译paddle_infer::Config config;

config.SetModel("./resnet50/model",

"./resnet50/params");

config.EnableUseGpu(100, 0);

config.EnableMKLDNN();

config.EnableMemoryOptim();

// 创建Predictor

return paddle_infer::CreatePredictor(config);

}

void Run(paddle_infer::Predictor *predictor,

const std::vector<float>& input,

const std::vector<int>& input_shape,

std::vector<float> *out_data) {

// 准备模型的输⼊

int input_num = std::accumulate(input_shape.begin(), d(), 1, std::multiplies<int>());

auto input_names = predictor->GetInputNames();

auto input_t = predictor->GetInputHandle(input_names[0]);

input_t->Reshape(input_shape);

input_t->CopyFromCpu(input.data());

// 模型推理

CHECK(predictor->Run());

// 获取模型的输出

auto output_names = predictor->GetOutputNames();

// there is only one output of Resnet50

688IT编程网

PaddleInference原生推理库

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

PaddleInference原生推理库

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式