TensorRT模型转换及部署，FP32/FP16/INT8精度区分

时间 2020-07-20

标签 tensorrt 模型转换部署 fp32 fp16 int8 int 精度区分繁體版

原文原文链接

TensorRT 1、简介 TensorRT 是一个深度学习模型线上部署的优化引擎，即 GPU Inference Engine。Tensor 表明张量，即数据流动以张量的方式，如4维张量 [N, C, H, W]。RT表示 runtime。通常状况如上图，线下构建网络结构，训练好模型，而后在实际业务中线上部署到对实时性要求较高（latency敏感）的场景，如通常的嵌入式设备，云端等等。实际应用

>>阅读原文<<