多线程下，模型并行效率线性递增 #1261

longsy316 · 2023-02-08T05:51:51Z

Environment

FastDeploy version: e.g 0.8.0 or the latest code in develop branch
OS Platform: e.g. Linux x64 / Windows x64 / Mac OSX 12.1(arm or intel)
Hardware: e.g. Nvidia GPU 3080Ti CUDA 11.8 CUDNN 8.6
Program Language: e.g. C++

Problem description

Please attach the log file if there's problem happend.
yolox_deploy.zip

问题描述：
1.进行多线程调用时，
一个线程是内部推理 10次（单个模型4ms）40 ms， cuda 利用率 59%
两个线程是内部推理 10次（单个模型4ms）80 ms，cuda 利用率 67%
三个线程是内部推理 10次（单个模型4ms）110 ms，cuda 利用率 96%
以上cuda利用率均正常。

实验1：以下是另外一个测试验证，nvpp分析，模型不存在并行，效率是随着模型并行个数的增多，线性增加。

实验2（fasterdeploy推理）

通过nvpp 分析，cuda 流已经有并发情况，但是时间为啥还是线性增加。按道理cuda流并行后，效率会有所提速。

能否帮忙分析问题所在！

longsy316 · 2023-03-15T06:26:40Z

已经解决，现在已经可以实现模型并行，cuda的nv利用率非常高了。

四个模型的并行可以同时在20ms 以内，只要cuda利用率在70 80 下；

Hr-Song · 2023-03-16T07:03:55Z

我遇到了类似的问题，请问怎么解决的？

luameows · 2023-10-09T02:23:25Z

@longsy316 @Hr-Song 请教下是怎么处理的呢，我在测试也发现用tensorrt作为backend的时候，多线程推理似乎底层被上了锁，耗时都是串行增加的

sanersbug · 2024-07-17T15:54:26Z

@longsy316 @Hr-Song @longsy316 请问问题怎么解决的，我遇到了同样的问题

jiangjiajun added the Performance label Feb 9, 2023

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

多线程下，模型并行效率线性递增 #1261

多线程下，模型并行效率线性递增 #1261

longsy316 commented Feb 8, 2023 •

edited

Loading

longsy316 commented Mar 15, 2023

Hr-Song commented Mar 16, 2023

luameows commented Oct 9, 2023

sanersbug commented Jul 17, 2024

多线程下，模型并行效率线性递增 #1261

多线程下，模型并行效率线性递增 #1261

Comments

longsy316 commented Feb 8, 2023 • edited Loading

Environment

Problem description

longsy316 commented Mar 15, 2023

Hr-Song commented Mar 16, 2023

luameows commented Oct 9, 2023

sanersbug commented Jul 17, 2024

longsy316 commented Feb 8, 2023 •

edited

Loading