paddlehub serving 预测如何加速

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

黑黑鹰淘发布于2021-06

使用hub serving部署了自己在ernie_tiny上finetune的模型，目前使用了多进程预测，但是返回速度还是在0.5s-3s不等，因为系统对实时以及并发要求较高，这个速度显然不行。请问还有什么好的办法可以加速嘛？用gpu？模型蒸馏？缩短文本长度？tensorrt？paddle提供的部署框架也有很多，不太清楚哪个性能会更好一些，求解答~

0

收藏

回复

全部评论(2)

阿达西123

#2 回复于2021-06

可以试试paddleserving看看：https://github.com/PaddlePaddle/Serving

0

回复

黑

黑鹰淘

#3 回复于2021-06

阿达西123 #2

可以试试paddleserving看看：https://github.com/PaddlePaddle/Serving

请问paddle inference和paddleserving可以联动嘛？看到paddle inference 有一些集成tensorrt之类的优化，想使用paddle inference推理，但是不太清楚应该怎样把paddle inference的弄成serving那种远程调用的服务化形式，或者说paddle serving也支持tensorrt嘛？感谢大佬解答！

0

回复

提issue

需求/bug反馈？一键提issue告诉我们

提pr

发现bug？如果您知道修复办法，欢迎提pr直接参与建设飞桨~