原生 TensorRT 在很早之前的版本(如 TensorRT 4)中已经支持 FP16 预测,但是由于厂内普遍用的 GPU 不支持 FP16 预测,所以也基本没有应用。然而当前厂内厂外一些新的 GPU 都开始支持 FP16,相比于 INT8,FP16 的损失更小、更可控,是否能够提供对 FP16 预测的支持?
如下为 T4 GPU 的 FP16 算力:
在 T4 上使用 TensorRT6 + ResNet101 做了简单实验,FP16 的吞吐至少可以达到 FP32 的 4-5 倍。
fp16是可以支持的。 https://www.paddlepaddle.org.cn/documentation/docs/zh/advanced_usage/deploy/inference/paddle_tensorrt_infer.html#a-name-paddle-trt-paddle-trt-a
直接将precision 改成kHalf, 加载fp32 即可预测。
原生 TensorRT 在很早之前的版本(如 TensorRT 4)中已经支持 FP16 预测,但是由于厂内普遍用的 GPU 不支持 FP16 预测,所以也基本没有应用。然而当前厂内厂外一些新的 GPU 都开始支持 FP16,相比于 INT8,FP16 的损失更小、更可控,是否能够提供对 FP16 预测的支持?
如下为 T4 GPU 的 FP16 算力:
在 T4 上使用 TensorRT6 + ResNet101 做了简单实验,FP16 的吞吐至少可以达到 FP32 的 4-5 倍。