Fix L0_multi_gpu

triton-inference-server · yinggeh · Sep 21, 2024 · Sep 18, 2024 · Sep 19, 2024 · Sep 20, 2024
commit 8fbc234ec1c5db1432f13c6972185a2f53a15903
diff --git a/src/model.py b/src/model.py
@@ -161,6 +161,7 @@ def init_engine(self):
         self.llm_engine = AsyncLLMEngine.from_engine_args(aync_engine_args)
 
         # Create vLLM custom metrics
+        self.vllm_metrics = None
         if (
             "REPORT_CUSTOM_METRICS" in self.model_config["parameters"]
             and self.model_config["parameters"]["REPORT_CUSTOM_METRICS"]["string_value"]
@@ -574,7 +575,8 @@ def finalize(self):
             self._response_thread = None
 
         # Shutdown the logger thread.
-        self.vllm_metrics.finalize()
+        if self.vllm_metrics is not None:
+            self.vllm_metrics.finalize()
 
         # When using parallel tensors, the stub process may not shutdown due to
         # unreleased references, so manually run the garbage collector once.