paddlehub serving 预测如何加速
收藏
使用hub serving部署了自己在ernie_tiny上finetune的模型,目前使用了多进程预测,但是返回速度还是在0.5s-3s不等,因为系统对实时以及并发要求较高,这个速度显然不行。请问还有什么好的办法可以加速嘛?用gpu?模型蒸馏?缩短文本长度?tensorrt?paddle提供的部署框架也有很多,不太清楚哪个性能会更好一些,求解答~
0
收藏
请登录后评论
可以试试paddleserving看看:https://github.com/PaddlePaddle/Serving
请问paddle inference和paddleserving可以联动嘛?看到paddle inference 有一些集成tensorrt之类的优化 ,想使用paddle inference推理,但是不太清楚应该怎样把paddle inference的弄成serving那种远程调用的服务化形式,或者说paddle serving也支持tensorrt嘛?感谢大佬解答!