TensorRT模型转换及部署,FP32/FP16/INT8精度区分

TensorRT 1、简介 TensorRT 是一个深度学习模型线上部署的优化引擎,即 GPU Inference Engine。Tensor 表明张量,即数据流动以张量的方式,如4维张量 [N, C, H, W]。RT表示 runtime。 通常状况如上图,线下构建网络结构,训练好模型,而后在实际业务中线上部署到对实时性要求较高(latency敏感)的场景,如通常的嵌入式设备,云端等等。实际应用
相关文章
相关标签/搜索