NvidiaTensorRT⽂档——开发者指南
摘要
该TensorRT 7.2.1开发者指南演⽰了如何使⽤C ++和Python API来实现常见的深度学习层。 它显⽰了如何采⽤现有深度学习框架构建模型,并通过提供的解析器把该模型构建为TensorRT引擎。 开发者指南还提供了针对常见任务的分步说明,例如创建TensorRT⽹络定义,调⽤TensorRT构建器,序列化和反序列化以及如何向引擎提供数据和执⾏推理; 可以使⽤C ++或者Python API。
1.什么是TensorRT
NVIDIA®TensorRT™的核⼼是⼀个C ++库,可促进对NVIDIA图形处理单元(GPU)的⾼性能推断。 它旨在与
TensorFlow,Caffe,PyTorch,MXNet等训练框架以互补的⽅式⼯作。它专门致⼒于在GPU上快速有效地运⾏已经训练好的⽹络,以⽣成结果(该过程在其他地⽅有可能被称为评分,检测,回归或推断)。
⼀些训练框架(例如TensorFlow)已经集成了TensorRT,因此可以将其⽤于框架内加速推理。 另外,TensorRT可以⽤作⽤户应⽤程序中的库。 它包括⽤于从Caffe,ONNX或TensorFlow导⼊现有模型的解析器,以及⽤于以编程⽅式构建模型的C ++和Python API。
tensorflow版本选择图1. TensorRT是⽤于⽣产部署的⾼性能神经⽹络推理优化器和运⾏时引擎
TensorRT通过组合层和优化核选择来优化⽹络,以改善延迟,吞吐量,能效和内存消耗。另外,在应⽤程序指定的情况下,它将使其以较低的精度运⾏来优化⽹络,从⽽进⼀步提⾼性能并减少内存需求。
下图显⽰TensorRT定义为部分⾼性能推理优化器和部分运⾏时引擎。 它可以吸收在这些流⾏框架上训练过的神经⽹络,优化神经⽹络计算,⽣成轻量级运⾏时引擎(这是您唯⼀需要部署到⽣产环境中的东西),然后它将使这些GPU平台上的性能,吞吐量和延迟最⼤化()。
图3. ONNX Workflow V1
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论