From 9612fbe2cbffaacbfbce42b38a8a102d33c08e19 Mon Sep 17 00:00:00 2001
From: Izzy Putterman <iputterman@nvidia.com>
Date: Fri, 24 May 2024 12:27:02 -0700
Subject: [PATCH] MultiLoRA Support (#662)

---
 src/c++/perf_analyzer/genai-perf/README.md    |   11 +-
 .../genai_perf/llm_inputs/llm_inputs.py       |   75 +-
 .../genai-perf/genai_perf/main.py             |    1 +
 .../genai-perf/genai_perf/parser.py           |   46 +-
 .../genai-perf/genai_perf/wrapper.py          |   32 +-
 .../perf_analyzer/genai-perf/pyproject.toml   |    1 +
 .../genai-perf/tests/test_cli.py              |   85 +-
 .../genai-perf/tests/test_json_exporter.py    |    4 +-
 .../genai-perf/tests/test_llm_inputs.py       | 1026 ++++++++++-------
 9 files changed, 784 insertions(+), 497 deletions(-)
diff --git a/src/c++/perf_analyzer/genai-perf/README.md b/src/c++/perf_analyzer/genai-perf/README.md
index 87bb8675a..8976e920e 100644
--- a/src/c++/perf_analyzer/genai-perf/README.md
+++ b/src/c++/perf_analyzer/genai-perf/README.md
@@ -342,11 +342,18 @@ Show the help message and exit.
 
 ## Endpoint Options:
 
-##### `-m <str>`
-##### `--model <str>`
+##### `-m <list>`
+##### `--model <list>`
 
 The name of the model to benchmark. (default: `None`)
 
+##### `--model-selection-strategy {round_robin, random}`
+
+When multiple model are specified, this is how a specific model
+should be assigned to a prompt.  round_robin means that ith prompt in the
+list gets assigned to i mod len(models).  random means that assignment is
+uniformly random (default: `round_robin`)
+
 ##### `--backend {tensorrtllm,vllm}`
 
 When using the "triton" service-kind, this is the backend of the model. For the
diff --git a/src/c++/perf_analyzer/genai-perf/genai_perf/llm_inputs/llm_inputs.py b/src/c++/perf_analyzer/genai-perf/genai_perf/llm_inputs/llm_inputs.py
index 3137d2fe4..98792df4c 100644
--- a/src/c++/perf_analyzer/genai-perf/genai_perf/llm_inputs/llm_inputs.py
+++ b/src/c++/perf_analyzer/genai-perf/genai_perf/llm_inputs/llm_inputs.py
@@ -27,6 +27,11 @@
 from requests import Response
 
 
+class ModelSelectionStrategy(Enum):
+    ROUND_ROBIN = auto()
+    RANDOM = auto()
+
+
 class PromptSource(Enum):
     SYNTHETIC = auto()
     DATASET = auto()
@@ -78,7 +83,8 @@ def create_llm_inputs(
         input_type: PromptSource,
         output_format: OutputFormat,
         dataset_name: str = "",
-        model_name: str = "",
+        model_name: list = [],
+        model_selection_strategy: ModelSelectionStrategy = ModelSelectionStrategy.ROUND_ROBIN,
         input_filename: Optional[Path] = Path(""),
         starting_index: int = DEFAULT_STARTING_INDEX,
         length: int = DEFAULT_LENGTH,
@@ -194,6 +200,7 @@ def create_llm_inputs(
             output_tokens_stddev,
             output_tokens_deterministic,
             model_name,
+            model_selection_strategy,
         )
         cls._write_json_to_file(json_in_pa_format, output_dir)
 
@@ -354,7 +361,8 @@ def _convert_generic_json_to_output_format(
         output_tokens_mean: int,
         output_tokens_stddev: int,
         output_tokens_deterministic: bool,
-        model_name: str = "",
+        model_name: list = [],
+        model_selection_strategy: ModelSelectionStrategy = ModelSelectionStrategy.ROUND_ROBIN,
     ) -> Dict:
         if output_format == OutputFormat.OPENAI_CHAT_COMPLETIONS:
             output_json = cls._convert_generic_json_to_openai_chat_completions_format(
@@ -366,6 +374,7 @@ def _convert_generic_json_to_output_format(
                 output_tokens_stddev,
                 output_tokens_deterministic,
                 model_name,
+                model_selection_strategy,
             )
         elif output_format == OutputFormat.OPENAI_COMPLETIONS:
             output_json = cls._convert_generic_json_to_openai_completions_format(
@@ -377,6 +386,7 @@ def _convert_generic_json_to_output_format(
                 output_tokens_stddev,
                 output_tokens_deterministic,
                 model_name,
+                model_selection_strategy,
             )
         elif output_format == OutputFormat.VLLM:
             output_json = cls._convert_generic_json_to_vllm_format(
@@ -388,6 +398,7 @@ def _convert_generic_json_to_output_format(
                 output_tokens_stddev,
                 output_tokens_deterministic,
                 model_name,
+                model_selection_strategy,
             )
         elif output_format == OutputFormat.TENSORRTLLM:
             output_json = cls._convert_generic_json_to_trtllm_format(
@@ -399,6 +410,7 @@ def _convert_generic_json_to_output_format(
                 output_tokens_stddev,
                 output_tokens_deterministic,
                 model_name,
+                model_selection_strategy,
             )
         else:
             raise GenAIPerfException(
@@ -417,7 +429,8 @@ def _convert_generic_json_to_openai_chat_completions_format(
         output_tokens_mean: int,
         output_tokens_stddev: int,
         output_tokens_deterministic: bool,
-        model_name: str = "",
+        model_name: list = [],
+        model_selection_strategy: ModelSelectionStrategy = ModelSelectionStrategy.ROUND_ROBIN,
     ) -> Dict:
         # TODO (TMA-1757): Implement a way to select a role for `text_input`
         (
@@ -436,6 +449,7 @@ def _convert_generic_json_to_openai_chat_completions_format(
             output_tokens_stddev,
             output_tokens_deterministic,
             model_name,
+            model_selection_strategy,
         )
 
         return pa_json
@@ -450,7 +464,8 @@ def _convert_generic_json_to_openai_completions_format(
         output_tokens_mean: int,
         output_tokens_stddev: int,
         output_tokens_deterministic: bool,
-        model_name: str = "",
+        model_name: list = [],
+        model_selection_strategy: ModelSelectionStrategy = ModelSelectionStrategy.ROUND_ROBIN,
     ) -> Dict:
         (
             system_role_headers,
@@ -469,6 +484,7 @@ def _convert_generic_json_to_openai_completions_format(
             output_tokens_stddev,
             output_tokens_deterministic,
             model_name,
+            model_selection_strategy,
         )
 
         return pa_json
@@ -483,7 +499,8 @@ def _convert_generic_json_to_vllm_format(
         output_tokens_mean: int,
         output_tokens_stddev: int,
         output_tokens_deterministic: bool,
-        model_name: str = "",
+        model_name: list = [],
+        model_selection_strategy: ModelSelectionStrategy = ModelSelectionStrategy.ROUND_ROBIN,
     ) -> Dict:
         (
             system_role_headers,
@@ -503,6 +520,7 @@ def _convert_generic_json_to_vllm_format(
             output_tokens_stddev,
             output_tokens_deterministic,
             model_name,
+            model_selection_strategy,
         )
 
         return pa_json
@@ -517,7 +535,8 @@ def _convert_generic_json_to_trtllm_format(
         output_tokens_mean: int,
         output_tokens_stddev: int,
         output_tokens_deterministic: bool,
-        model_name: str = "",
+        model_name: list = [],
+        model_selection_strategy: ModelSelectionStrategy = ModelSelectionStrategy.ROUND_ROBIN,
     ) -> Dict:
         (
             system_role_headers,
@@ -537,6 +556,7 @@ def _convert_generic_json_to_trtllm_format(
             output_tokens_stddev,
             output_tokens_deterministic,
             model_name,
+            model_selection_strategy,
         )
 
         return pa_json
@@ -577,6 +597,17 @@ def _determine_json_feature_roles(
 
         return system_role_headers, user_role_headers, text_input_headers
 
+    @classmethod
+    def _select_model_name(cls, model_name, index, model_selection_strategy):
+        if model_selection_strategy == ModelSelectionStrategy.ROUND_ROBIN:
+            return model_name[index % len(model_name)]
+        elif model_selection_strategy == ModelSelectionStrategy.RANDOM:
+            return random.choice(model_name)
+        else:
+            raise GenAIPerfException(
+                f"Model selection strategy '{model_selection_strategy}' is unsupported"
+            )
+
     @classmethod
     def _populate_openai_chat_completions_output_json(
         cls,
@@ -589,11 +620,15 @@ def _populate_openai_chat_completions_output_json(
         output_tokens_mean: int,
         output_tokens_stddev: int,
         output_tokens_deterministic: bool,
-        model_name: str = "",
+        model_name: list = [],
+        model_selection_strategy: ModelSelectionStrategy = ModelSelectionStrategy.ROUND_ROBIN,
     ) -> Dict:
         pa_json = cls._create_empty_openai_pa_json()
 
         for index, entry in enumerate(dataset_json["rows"]):
+            iter_model_name = cls._select_model_name(
+                model_name, index, model_selection_strategy
+            )
             pa_json["data"].append({"payload": []})
             pa_json["data"][index]["payload"].append({"messages": []})
 
@@ -613,7 +648,7 @@ def _populate_openai_chat_completions_output_json(
                 output_tokens_mean,
                 output_tokens_stddev,
                 output_tokens_deterministic,
-                model_name,
+                iter_model_name,
             )
 
         return pa_json
@@ -631,11 +666,15 @@ def _populate_openai_completions_output_json(
         output_tokens_mean: int,
         output_tokens_stddev: int,
         output_tokens_deterministic: bool,
-        model_name: str = "",
+        model_name: list = [],
+        model_selection_strategy: ModelSelectionStrategy = ModelSelectionStrategy.ROUND_ROBIN,
     ) -> Dict:
         pa_json = cls._create_empty_openai_pa_json()
 
         for index, entry in enumerate(dataset_json["rows"]):
+            iter_model_name = cls._select_model_name(
+                model_name, index, model_selection_strategy
+            )
             pa_json["data"].append({"payload": []})
             pa_json["data"][index]["payload"].append({"prompt": ""})
 
@@ -659,7 +698,7 @@ def _populate_openai_completions_output_json(
                 output_tokens_mean,
                 output_tokens_stddev,
                 output_tokens_deterministic,
-                model_name,
+                iter_model_name,
             )
 
         return pa_json
@@ -677,11 +716,15 @@ def _populate_vllm_output_json(
         output_tokens_mean: int,
         output_tokens_stddev: int,
         output_tokens_deterministic: bool,
-        model_name: str = "",
+        model_name: list = [],
+        model_selection_strategy: ModelSelectionStrategy = ModelSelectionStrategy.ROUND_ROBIN,
     ) -> Dict:
         pa_json = cls._create_empty_vllm_pa_json()
 
         for index, entry in enumerate(dataset_json["rows"]):
+            iter_model_name = cls._select_model_name(
+                model_name, index, model_selection_strategy
+            )
             pa_json["data"].append({"text_input": [""]})
 
             for header, content in entry.items():
@@ -706,7 +749,7 @@ def _populate_vllm_output_json(
                 output_tokens_mean,
                 output_tokens_stddev,
                 output_tokens_deterministic,
-                model_name,
+                iter_model_name,
             )
 
         return pa_json
@@ -724,7 +767,8 @@ def _populate_trtllm_output_json(
         output_tokens_mean: int,
         output_tokens_stddev: int,
         output_tokens_deterministic: bool,
-        model_name: str = "",
+        model_name: list = [],
+        model_selection_strategy: ModelSelectionStrategy = ModelSelectionStrategy.ROUND_ROBIN,
     ) -> Dict:
         pa_json = cls._create_empty_trtllm_pa_json()
         default_max_tokens = (
@@ -733,6 +777,9 @@ def _populate_trtllm_output_json(
         )
 
         for index, entry in enumerate(dataset_json["rows"]):
+            iter_model_name = cls._select_model_name(
+                model_name, index, model_selection_strategy
+            )
             pa_json["data"].append({"text_input": [""]})
 
             for header, content in entry.items():
@@ -760,7 +807,7 @@ def _populate_trtllm_output_json(
                 output_tokens_mean,
                 output_tokens_stddev,
                 output_tokens_deterministic,
-                model_name,
+                iter_model_name,
             )
 
         return pa_json
diff --git a/src/c++/perf_analyzer/genai-perf/genai_perf/main.py b/src/c++/perf_analyzer/genai-perf/genai_perf/main.py
index 08bd3760c..da5fd0e79 100755
--- a/src/c++/perf_analyzer/genai-perf/genai_perf/main.py
+++ b/src/c++/perf_analyzer/genai-perf/genai_perf/main.py
@@ -64,6 +64,7 @@ def generate_inputs(args: Namespace, tokenizer: Tokenizer) -> None:
         output_format=args.output_format,
         dataset_name=args.input_dataset,
         model_name=args.model,
+        model_selection_strategy=args.model_selection_strategy,
         input_filename=input_filename,
         starting_index=LlmInputs.DEFAULT_STARTING_INDEX,
         length=args.num_prompts,
diff --git a/src/c++/perf_analyzer/genai-perf/genai_perf/parser.py b/src/c++/perf_analyzer/genai-perf/genai_perf/parser.py
index 4bdfe3c56..ee886daf3 100644
--- a/src/c++/perf_analyzer/genai-perf/genai_perf/parser.py
+++ b/src/c++/perf_analyzer/genai-perf/genai_perf/parser.py
@@ -37,7 +37,12 @@
     DEFAULT_COMPARE_DIR,
     OPEN_ORCA,
 )
-from genai_perf.llm_inputs.llm_inputs import LlmInputs, OutputFormat, PromptSource
+from genai_perf.llm_inputs.llm_inputs import (
+    LlmInputs,
+    ModelSelectionStrategy,
+    OutputFormat,
+    PromptSource,
+)
 from genai_perf.plots.plot_config_parser import PlotConfigParser
 from genai_perf.plots.plot_manager import PlotManager
 from genai_perf.tokenizer import DEFAULT_TOKENIZER
@@ -57,9 +62,23 @@ def _check_model_args(
     """
     if not args.subcommand and not args.model:
         parser.error("The -m/--model option is required and cannot be empty.")
+    args = _convert_str_to_enum_entry(
+        args, "model_selection_strategy", ModelSelectionStrategy
+    )
+    _generate_formatted_model_name(args)
     return args
 
 
+def _generate_formatted_model_name(args: argparse.Namespace) -> None:
+    if len(args.model) == 1:
+        args.formatted_model_name = args.model[0]
+    elif len(args.model) == 0:
+        args.model = None
+        args.formatted_model_name = None
+    else:
+        args.formatted_model_name = args.model[0] + "_multi"
+
+
 def _check_compare_args(
     parser: argparse.ArgumentParser, args: argparse.Namespace
 ) -> argparse.Namespace:
@@ -140,15 +159,17 @@ def _set_artifact_paths(args: argparse.Namespace) -> argparse.Namespace:
     """
     if args.artifact_dir == Path(DEFAULT_ARTIFACT_DIR):
         # Preprocess Huggingface model names that include '/' in their model name.
-        if (args.model is not None) and ("/" in args.model):
-            filtered_name = "_".join(args.model.split("/"))
+        if (args.formatted_model_name is not None) and (
+            "/" in args.formatted_model_name
+        ):
+            filtered_name = "_".join(args.formatted_model_name.split("/"))
             logger.info(
-                f"Model name '{args.model}' cannot be used to create artifact "
+                f"Model name '{args.formatted_model_name}' cannot be used to create artifact "
                 f"directory. Instead, '{filtered_name}' will be used."
             )
             name = [f"{filtered_name}"]
         else:
-            name = [f"{args.model}"]
+            name = [f"{args.formatted_model_name}"]
 
         if args.service_kind == "openai":
             name += [f"{args.service_kind}-{args.endpoint_type}"]
@@ -340,9 +361,20 @@ def _add_endpoint_args(parser):
     endpoint_group.add_argument(
         "-m",
         "--model",
+        nargs="+",
+        default=[],
+        help=f"The name of the model(s) to benchmark.",
+    )
+    endpoint_group.add_argument(
+        "--model-selection-strategy",
         type=str,
-        default=None,
-        help=f"The name of the model to benchmark.",
+        choices=utils.get_enum_names(ModelSelectionStrategy),
+        default="round_robin",
+        required=False,
+        help=f"When multiple model are specified, this is how a specific model "
+        "should be assigned to a prompt.  round_robin means that ith prompt in the "
+        "list gets assigned to i mod len(models).  random means that assignment is "
+        "uniformly random",
     )
 
     endpoint_group.add_argument(
diff --git a/src/c++/perf_analyzer/genai-perf/genai_perf/wrapper.py b/src/c++/perf_analyzer/genai-perf/genai_perf/wrapper.py
index fa0049118..e5f704423 100644
--- a/src/c++/perf_analyzer/genai-perf/genai_perf/wrapper.py
+++ b/src/c++/perf_analyzer/genai-perf/genai_perf/wrapper.py
@@ -62,15 +62,27 @@ def add_inference_load_args(args: Namespace) -> List[str]:
     @staticmethod
     def build_cmd(args: Namespace, extra_args: Optional[List[str]] = None) -> List[str]:
         skip_args = [
+            "artifact_dir",
+            "backend",
+            "concurrency",
+            "endpoint_type",
+            "extra_inputs",
+            "formatted_model_name",
             "func",
+            "generate_plots",
             "input_dataset",
             "input_file",
-            "prompt_source",
             "input_format",
             "model",
-            "backend",
-            "extra_inputs",
+            "model_selection_strategy",
+            "num_prompts",
             "output_format",
+            "output_tokens_mean_deterministic",
+            "output_tokens_mean",
+            "output_tokens_stddev",
+            "prompt_source",
+            "random_seed",
+            "request_rate",
             # The 'streaming' passed in to this script is to determine if the
             # LLM response should be streaming. That is different than the
             # 'streaming' that PA takes, which means something else (and is
@@ -78,18 +90,8 @@ def build_cmd(args: Namespace, extra_args: Optional[List[str]] = None) -> List[s
             "streaming",
             "synthetic_input_tokens_mean",
             "synthetic_input_tokens_stddev",
-            "output_tokens_mean",
-            "output_tokens_stddev",
-            "output_tokens_mean_deterministic",
-            "num_prompts",
-            "random_seed",
-            "tokenizer",
-            "endpoint_type",
-            "generate_plots",
             "subcommand",
-            "concurrency",
-            "request_rate",
-            "artifact_dir",
+            "tokenizer",
         ]
 
         utils.remove_file(args.profile_export_file)
@@ -97,7 +99,7 @@ def build_cmd(args: Namespace, extra_args: Optional[List[str]] = None) -> List[s
         cmd = [
             f"perf_analyzer",
             f"-m",
-            f"{args.model}",
+            f"{args.formatted_model_name}",
             f"--async",
             f"--input-data",
             f"{args.artifact_dir / DEFAULT_INPUT_DATA_JSON}",
diff --git a/src/c++/perf_analyzer/genai-perf/pyproject.toml b/src/c++/perf_analyzer/genai-perf/pyproject.toml
index b8068bd7c..7be2c8474 100644
--- a/src/c++/perf_analyzer/genai-perf/pyproject.toml
+++ b/src/c++/perf_analyzer/genai-perf/pyproject.toml
@@ -58,6 +58,7 @@ dependencies = [
   "fastparquet",
   "pytest-mock",
   "pyyaml",
+  "responses",
 ]
 
 # CLI Entrypoint
diff --git a/src/c++/perf_analyzer/genai-perf/tests/test_cli.py b/src/c++/perf_analyzer/genai-perf/tests/test_cli.py
index 708113cda..3066d554a 100644
--- a/src/c++/perf_analyzer/genai-perf/tests/test_cli.py
+++ b/src/c++/perf_analyzer/genai-perf/tests/test_cli.py
@@ -29,7 +29,11 @@
 import genai_perf.logging as logging
 import pytest
 from genai_perf import __version__, parser
-from genai_perf.llm_inputs.llm_inputs import OutputFormat, PromptSource
+from genai_perf.llm_inputs.llm_inputs import (
+    ModelSelectionStrategy,
+    OutputFormat,
+    PromptSource,
+)
 
 
 class TestCLIArguments:
@@ -70,6 +74,10 @@ def test_help_version_arguments_output_and_exit(
     @pytest.mark.parametrize(
         "arg, expected_attributes",
         [
+            (
+                ["--artifact-dir", "test_artifact_dir"],
+                {"artifact_dir": Path("test_artifact_dir")},
+            ),
             (["--concurrency", "3"], {"concurrency": 3}),
             (
                 ["--endpoint-type", "completions", "--service-kind", "openai"],
@@ -126,14 +134,12 @@ def test_help_version_arguments_output_and_exit(
                 {"extra_inputs": ["test_key:5", "another_test_key:6"]},
             ),
             (["--input-dataset", "openorca"], {"input_dataset": "openorca"}),
+            (["--measurement-interval", "100"], {"measurement_interval": 100}),
             (
-                ["--synthetic-input-tokens-mean", "6"],
-                {"synthetic_input_tokens_mean": 6},
-            ),
-            (
-                ["--synthetic-input-tokens-stddev", "7"],
-                {"synthetic_input_tokens_stddev": 7},
+                ["--model-selection-strategy", "random"],
+                {"model_selection_strategy": ModelSelectionStrategy.RANDOM},
             ),
+            (["--num-prompts", "101"], {"num_prompts": 101}),
             (
                 ["--output-tokens-mean", "6"],
                 {"output_tokens_mean": 6},
@@ -146,9 +152,7 @@ def test_help_version_arguments_output_and_exit(
                 ["--output-tokens-mean", "6", "--output-tokens-mean-deterministic"],
                 {"output_tokens_mean_deterministic": True},
             ),
-            (["--measurement-interval", "100"], {"measurement_interval": 100}),
             (["-p", "100"], {"measurement_interval": 100}),
-            (["--num-prompts", "101"], {"num_prompts": 101}),
             (
                 ["--profile-export-file", "test.json"],
                 {
@@ -159,22 +163,26 @@ def test_help_version_arguments_output_and_exit(
             ),
             (["--random-seed", "8"], {"random_seed": 8}),
             (["--request-rate", "9.0"], {"request_rate": 9.0}),
+            (["-s", "99.5"], {"stability_percentage": 99.5}),
             (["--service-kind", "triton"], {"service_kind": "triton"}),
             (
                 ["--service-kind", "openai", "--endpoint-type", "chat"],
                 {"service_kind": "openai", "endpoint": "v1/chat/completions"},
             ),
             (["--stability-percentage", "99.5"], {"stability_percentage": 99.5}),
-            (["-s", "99.5"], {"stability_percentage": 99.5}),
             (["--streaming"], {"streaming": True}),
-            (["--verbose"], {"verbose": True}),
-            (["-v"], {"verbose": True}),
-            (["--url", "test_url"], {"u": "test_url"}),
-            (["-u", "test_url"], {"u": "test_url"}),
             (
-                ["--artifact-dir", "test_artifact_dir"],
-                {"artifact_dir": Path("test_artifact_dir")},
+                ["--synthetic-input-tokens-mean", "6"],
+                {"synthetic_input_tokens_mean": 6},
             ),
+            (
+                ["--synthetic-input-tokens-stddev", "7"],
+                {"synthetic_input_tokens_stddev": 7},
+            ),
+            (["-v"], {"verbose": True}),
+            (["--verbose"], {"verbose": True}),
+            (["-u", "test_url"], {"u": "test_url"}),
+            (["--url", "test_url"], {"u": "test_url"}),
         ],
     )
     def test_non_file_flags_parsed(self, monkeypatch, arg, expected_attributes, capsys):
@@ -191,6 +199,51 @@ def test_non_file_flags_parsed(self, monkeypatch, arg, expected_attributes, caps
         captured = capsys.readouterr()
         assert captured.out == ""
 
+    @pytest.mark.parametrize(
+        "models, expected_model_list, formatted_name",
+        [
+            (
+                ["--model", "test_model_A"],
+                {"model": ["test_model_A"]},
+                {"formatted_model_name": "test_model_A"},
+            ),
+            (
+                ["--model", "test_model_A", "test_model_B"],
+                {"model": ["test_model_A", "test_model_B"]},
+                {"formatted_model_name": "test_model_A_multi"},
+            ),
+            (
+                ["--model", "test_model_A", "test_model_B", "test_model_C"],
+                {"model": ["test_model_A", "test_model_B", "test_model_C"]},
+                {"formatted_model_name": "test_model_A_multi"},
+            ),
+            (
+                ["--model", "test_model_A:math", "test_model_B:embedding"],
+                {"model": ["test_model_A:math", "test_model_B:embedding"]},
+                {"formatted_model_name": "test_model_A:math_multi"},
+            ),
+        ],
+    )
+    def test_multiple_model_args(
+        self, monkeypatch, models, expected_model_list, formatted_name, capsys
+    ):
+        logging.init_logging()
+        combined_args = ["genai-perf"] + models
+        monkeypatch.setattr("sys.argv", combined_args)
+        args, _ = parser.parse_args()
+
+        # Check that models are handled correctly
+        for key, value in expected_model_list.items():
+            assert getattr(args, key) == value
+
+        # Check that the formatted_model_name is correctly generated
+        for key, value in formatted_name.items():
+            assert getattr(args, key) == value
+
+        # Check that nothing was printed as a byproduct of parsing the arguments
+        captured = capsys.readouterr()
+        assert captured.out == ""
+
     def test_file_flags_parsed(self, monkeypatch, mocker):
         mocked_open = mocker.patch("builtins.open", mocker.mock_open(read_data="data"))
         combined_args = [
diff --git a/src/c++/perf_analyzer/genai-perf/tests/test_json_exporter.py b/src/c++/perf_analyzer/genai-perf/tests/test_json_exporter.py
index 60e9596a9..b97712e31 100644
--- a/src/c++/perf_analyzer/genai-perf/tests/test_json_exporter.py
+++ b/src/c++/perf_analyzer/genai-perf/tests/test_json_exporter.py
@@ -206,7 +206,9 @@ class TestJsonExporter:
               "std": 60
           },
         "input_config": {
-          "model": "gpt2_vllm",
+          "model": ["gpt2_vllm"],
+          "formatted_model_name": "gpt2_vllm",
+          "model_selection_strategy": "round_robin",
           "backend": "vllm",
           "endpoint": null,
           "endpoint_type": null,
diff --git a/src/c++/perf_analyzer/genai-perf/tests/test_llm_inputs.py b/src/c++/perf_analyzer/genai-perf/tests/test_llm_inputs.py
index 5aa77df7c..4486ba3d9 100644
--- a/src/c++/perf_analyzer/genai-perf/tests/test_llm_inputs.py
+++ b/src/c++/perf_analyzer/genai-perf/tests/test_llm_inputs.py
@@ -19,12 +19,56 @@
 from pathlib import Path
 
 import pytest
+import responses
 from genai_perf import tokenizer
 from genai_perf.constants import CNN_DAILY_MAIL, DEFAULT_INPUT_DATA_JSON, OPEN_ORCA
 from genai_perf.exceptions import GenAIPerfException
-from genai_perf.llm_inputs.llm_inputs import LlmInputs, OutputFormat, PromptSource
+from genai_perf.llm_inputs.llm_inputs import (
+    LlmInputs,
+    ModelSelectionStrategy,
+    OutputFormat,
+    PromptSource,
+)
 from genai_perf.tokenizer import Tokenizer
 
+mocked_openorca_data = {
+    "features": [
+        {"feature_idx": 0, "name": "id", "type": {"dtype": "string", "_type": "Value"}},
+        {
+            "feature_idx": 1,
+            "name": "system_prompt",
+            "type": {"dtype": "string", "_type": "Value"},
+        },
+        {
+            "feature_idx": 2,
+            "name": "question",
+            "type": {"dtype": "string", "_type": "Value"},
+        },
+        {
+            "feature_idx": 3,
+            "name": "response",
+            "type": {"dtype": "string", "_type": "Value"},
+        },
+    ],
+    "rows": [
+        {
+            "row_idx": 0,
+            "row": {
+                "id": "niv.242684",
+                "system_prompt": "",
+                "question": "You will be given a definition of a task first, then some input of the task.\\nThis task is about using the specified sentence and converting the sentence to Resource Description Framework (RDF) triplets of the form (subject, predicate object). The RDF triplets generated must be such that the triplets accurately capture the structure and semantics of the input sentence. The input is a sentence and the output is a list of triplets of the form [subject, predicate, object] that capture the relationships present in the sentence. When a sentence has more than 1 RDF triplet possible, the output must contain all of them.\\n\\nAFC Ajax (amateurs)'s ground is Sportpark De Toekomst where Ajax Youth Academy also play.\\nOutput:",
+                "response": '[\\n  ["AFC Ajax (amateurs)", "has ground", "Sportpark De Toekomst"],\\n  ["Ajax Youth Academy", "plays at", "Sportpark De Toekomst"]\\n]',
+            },
+            "truncated_cells": [],
+        }
+    ],
+    "num_rows_total": 2914896,
+    "num_rows_per_page": 100,
+    "partial": True,
+}
+
+TEST_LENGTH = 1
+
 
 class TestLlmInputs:
     # Define service kind, backend or api, and output format combinations
@@ -127,463 +171,561 @@ def test_llm_inputs_error_in_server_response(self):
                 length=int(LlmInputs.DEFAULT_LENGTH * 100),
             )
 
+    @responses.activate
     def test_llm_inputs_with_defaults(self, default_configured_url):
         """
         Test that default options work
         """
-        dataset = LlmInputs._download_dataset(
-            default_configured_url,
-        )
-        dataset_json = LlmInputs._convert_input_url_dataset_to_generic_json(
-            dataset=dataset
+        responses.add(
+            responses.GET,
+            f"{default_configured_url}",
+            json=mocked_openorca_data,
+            status=200,
         )
 
-        assert dataset_json is not None
-        assert len(dataset_json["rows"]) == LlmInputs.DEFAULT_LENGTH
-
-    def test_llm_inputs_with_non_default_length(self):
-        """
-        Test that non-default length works
-        """
-        configured_url = LlmInputs._create_configured_url(
-            LlmInputs.OPEN_ORCA_URL,
-            LlmInputs.DEFAULT_STARTING_INDEX,
-            (int(LlmInputs.DEFAULT_LENGTH / 2)),
-        )
-        dataset = LlmInputs._download_dataset(
-            configured_url,
-        )
-        dataset_json = LlmInputs._convert_input_url_dataset_to_generic_json(
-            dataset=dataset
-        )
-
-        assert dataset_json is not None
-        assert len(dataset_json["rows"]) == LlmInputs.DEFAULT_LENGTH / 2
-
-    def test_convert_default_json_to_pa_format(self, default_configured_url):
-        """
-        Test that conversion to PA JSON format is correct
-        """
         dataset = LlmInputs._download_dataset(
             default_configured_url,
         )
         dataset_json = LlmInputs._convert_input_url_dataset_to_generic_json(
             dataset=dataset
         )
-        pa_json = LlmInputs._convert_generic_json_to_output_format(
-            output_format=OutputFormat.OPENAI_CHAT_COMPLETIONS,
-            generic_dataset=dataset_json,
-            add_model_name=False,
-            add_stream=False,
-            extra_inputs={},
-            output_tokens_mean=LlmInputs.DEFAULT_OUTPUT_TOKENS_MEAN,
-            output_tokens_stddev=LlmInputs.DEFAULT_OUTPUT_TOKENS_STDDEV,
-            output_tokens_deterministic=False,
-        )
-
-        assert pa_json is not None
-        assert len(pa_json["data"]) == LlmInputs.DEFAULT_LENGTH
-
-    def test_create_openai_llm_inputs_cnn_dailymail(self):
-        """
-        Test CNN_DAILYMAIL can be accessed
-        """
-        pa_json = LlmInputs.create_llm_inputs(
-            input_type=PromptSource.DATASET,
-            dataset_name=CNN_DAILY_MAIL,
-            output_format=OutputFormat.OPENAI_CHAT_COMPLETIONS,
-        )
-
-        os.remove(DEFAULT_INPUT_DATA_JSON)
-
-        assert pa_json is not None
-        assert len(pa_json["data"]) == LlmInputs.DEFAULT_LENGTH
-
-    def test_write_to_file(self):
-        """
-        Test that write to file is working correctly
-        """
-        pa_json = LlmInputs.create_llm_inputs(
-            input_type=PromptSource.DATASET,
-            dataset_name=OPEN_ORCA,
-            output_format=OutputFormat.OPENAI_CHAT_COMPLETIONS,
-            model_name="open_orca",
-            add_model_name=True,
-            add_stream=True,
-        )
-        try:
-            with open(DEFAULT_INPUT_DATA_JSON, "r") as f:
-                json_str = f.read()
-        finally:
-            os.remove(DEFAULT_INPUT_DATA_JSON)
-
-        assert pa_json == json.loads(json_str)
-
-    def test_create_openai_to_vllm(self):
-        """
-        Test conversion of openai to vllm
-        """
-        pa_json = LlmInputs.create_llm_inputs(
-            input_type=PromptSource.DATASET,
-            output_format=OutputFormat.VLLM,
-            dataset_name=OPEN_ORCA,
-            add_model_name=False,
-            add_stream=True,
-        )
-
-        os.remove(DEFAULT_INPUT_DATA_JSON)
-
-        assert pa_json is not None
-        assert len(pa_json["data"]) == LlmInputs.DEFAULT_LENGTH
-
-    def test_create_openai_to_completions(self):
-        """
-        Test conversion of openai to completions
-        """
-        pa_json = LlmInputs.create_llm_inputs(
-            input_type=PromptSource.DATASET,
-            output_format=OutputFormat.OPENAI_COMPLETIONS,
-            dataset_name=OPEN_ORCA,
-            add_model_name=False,
-            add_stream=True,
-        )
-
-        os.remove(DEFAULT_INPUT_DATA_JSON)
-
-        assert pa_json is not None
-        assert len(pa_json["data"]) == LlmInputs.DEFAULT_LENGTH
-        # NIM legacy completion endpoint only supports string and not
-        # array of strings. Verify that the prompt is of type string
-        # not list
-        assert isinstance(pa_json["data"][0]["payload"][0]["prompt"], str)
-
-    def test_create_openai_to_trtllm(self):
-        """
-        Test conversion of openai to trtllm
-        """
-        pa_json = LlmInputs.create_llm_inputs(
-            input_type=PromptSource.DATASET,
-            output_format=OutputFormat.TENSORRTLLM,
-            dataset_name=OPEN_ORCA,
-            add_model_name=False,
-            add_stream=True,
-        )
-
-        os.remove(DEFAULT_INPUT_DATA_JSON)
-
-        assert pa_json is not None
-        assert len(pa_json["data"]) == LlmInputs.DEFAULT_LENGTH
-
-    def test_random_synthetic_no_stddev(self, default_tokenizer):
-        """
-        Test that we can produce an exact number of random synthetic tokens
-        """
-        random.seed(1)
 
-        def _subtest(token_length):
-            synthetic_prompt = LlmInputs._create_synthetic_prompt(
-                tokenizer=default_tokenizer,
-                prompt_tokens_mean=token_length,
-                prompt_tokens_stddev=0,
-            )
-
-            actual_token_length = len(default_tokenizer.encode(synthetic_prompt))
-            assert token_length == actual_token_length
-
-        # Test all of 500-600 to make sure exact
-        for i in range(500, 600):
-            _subtest(i)
-
-        # Test some larger values
-        _subtest(1500)
-        _subtest(10000)
-
-    def test_random_synthetic_stddev(self, default_tokenizer):
-        """
-        Test that we can produce random synthetic tokens within a requested stddev
-        """
-        random.seed(1)
-
-        def _subtest(num_samples, mean, stddev):
-            prompt_tokens = []
-            for _ in range(num_samples):
-                prompt = LlmInputs._create_synthetic_prompt(
-                    tokenizer=default_tokenizer,
-                    prompt_tokens_mean=mean,
-                    prompt_tokens_stddev=stddev,
-                )
-                prompt_tokens.append(len(default_tokenizer.encode(prompt)))
-
-            assert statistics.mean(prompt_tokens) == pytest.approx(mean, rel=0.1)
-            assert statistics.stdev(prompt_tokens) == pytest.approx(stddev, rel=0.2)
-
-        _subtest(50, 200, 20)
-        _subtest(50, 400, 10)
-        _subtest(200, 50, 10)
-
-    def test_random_seed(self, default_tokenizer):
-        """
-        Test that when given the same seed, create_llm_inputs will return the same result,
-        and that when given a different seed, it will produce a different result
-        """
-
-        inputs_seed5_a = LlmInputs.create_llm_inputs(
-            tokenizer=default_tokenizer,
-            input_type=PromptSource.SYNTHETIC,
-            output_format=OutputFormat.TENSORRTLLM,
-            prompt_tokens_mean=300,
-            prompt_tokens_stddev=20,
-            num_of_output_prompts=5,
-            random_seed=5,
-        )
-
-        inputs_seed5_b = LlmInputs.create_llm_inputs(
-            tokenizer=default_tokenizer,
-            input_type=PromptSource.SYNTHETIC,
-            output_format=OutputFormat.TENSORRTLLM,
-            prompt_tokens_mean=300,
-            prompt_tokens_stddev=20,
-            num_of_output_prompts=5,
-            random_seed=5,
-        )
-
-        inputs_seed10 = LlmInputs.create_llm_inputs(
-            tokenizer=default_tokenizer,
-            input_type=PromptSource.SYNTHETIC,
-            output_format=OutputFormat.TENSORRTLLM,
-            prompt_tokens_mean=300,
-            prompt_tokens_stddev=20,
-            num_of_output_prompts=5,
-            random_seed=10,
-        )
-
-        assert inputs_seed5_a == inputs_seed5_b
-        assert inputs_seed5_a != inputs_seed10
-
-    def test_synthetic_to_vllm(self, default_tokenizer):
-        """
-        Test generating synthetic prompts and converting to vllm
-        """
-        pa_json = LlmInputs.create_llm_inputs(
-            input_type=PromptSource.SYNTHETIC,
-            output_format=OutputFormat.VLLM,
-            num_of_output_prompts=5,
-            add_model_name=False,
-            add_stream=True,
-            tokenizer=default_tokenizer,
-        )
-
-        os.remove(DEFAULT_INPUT_DATA_JSON)
-
-        assert pa_json is not None
-        assert len(pa_json["data"]) == 5
-
-    def test_synthetic_to_trtllm(self, default_tokenizer):
-        """
-        Test generating synthetic prompts and converting to trtllm
-        """
-        pa_json = LlmInputs.create_llm_inputs(
-            input_type=PromptSource.SYNTHETIC,
-            output_format=OutputFormat.TENSORRTLLM,
-            num_of_output_prompts=5,
-            add_model_name=False,
-            add_stream=True,
-            tokenizer=default_tokenizer,
-        )
-
-        os.remove(DEFAULT_INPUT_DATA_JSON)
-
-        assert pa_json is not None
-        assert len(pa_json["data"]) == 5
-
-    def test_synthetic_to_openai_chat_completions(self, default_tokenizer):
-        """
-        Test generating synthetic prompts and converting to OpenAI chat completions
-        """
-        pa_json = LlmInputs.create_llm_inputs(
-            input_type=PromptSource.SYNTHETIC,
-            output_format=OutputFormat.OPENAI_CHAT_COMPLETIONS,
-            num_of_output_prompts=5,
-            add_model_name=False,
-            add_stream=True,
-            tokenizer=default_tokenizer,
-        )
-
-        os.remove(DEFAULT_INPUT_DATA_JSON)
-
-        assert pa_json is not None
-        assert len(pa_json["data"]) == 5
-
-    def test_synthetic_to_openai_completions(self, default_tokenizer):
-        """
-        Test generating synthetic prompts and converting to OpenAI completions
-        """
-        pa_json = LlmInputs.create_llm_inputs(
-            input_type=PromptSource.SYNTHETIC,
-            output_format=OutputFormat.OPENAI_COMPLETIONS,
-            num_of_output_prompts=5,
-            add_model_name=False,
-            add_stream=True,
-            tokenizer=default_tokenizer,
-        )
-
-        os.remove(DEFAULT_INPUT_DATA_JSON)
+        assert dataset_json is not None
+        assert len(dataset_json["rows"]) == TEST_LENGTH
+
+    # TODO (TPA-114) Refactor LLM inputs and testing
+    # def test_llm_inputs_with_non_default_length(self):
+    #     """
+    #     Test that non-default length works
+    #     """
+    #     configured_url = LlmInputs._create_configured_url(
+    #         LlmInputs.OPEN_ORCA_URL,
+    #         LlmInputs.DEFAULT_STARTING_INDEX,
+    #         (int(LlmInputs.DEFAULT_LENGTH / 2)),
+    #     )
+    #     dataset = LlmInputs._download_dataset(
+    #         configured_url,
+    #     )
+    #     dataset_json = LlmInputs._convert_input_url_dataset_to_generic_json(
+    #         dataset=dataset
+    #     )
+
+    #     assert dataset_json is not None
+    #     assert len(dataset_json["rows"]) == LlmInputs.DEFAULT_LENGTH / 2
+
+    # def test_convert_default_json_to_pa_format(self, default_configured_url):
+    #     """
+    #     Test that conversion to PA JSON format is correct
+    #     """
+    #     dataset = LlmInputs._download_dataset(
+    #         default_configured_url,
+    #     )
+    #     dataset_json = LlmInputs._convert_input_url_dataset_to_generic_json(
+    #         dataset=dataset
+    #     )
+    #     pa_json = LlmInputs._convert_generic_json_to_output_format(
+    #         output_format=OutputFormat.OPENAI_CHAT_COMPLETIONS,
+    #         generic_dataset=dataset_json,
+    #         add_model_name=False,
+    #         add_stream=False,
+    #         extra_inputs={},
+    #         output_tokens_mean=LlmInputs.DEFAULT_OUTPUT_TOKENS_MEAN,
+    #         output_tokens_stddev=LlmInputs.DEFAULT_OUTPUT_TOKENS_STDDEV,
+    #         output_tokens_deterministic=False,
+    #         model_name=["test_model_A"],
+    #     )
+
+    #     assert pa_json is not None
+    #     assert len(pa_json["data"]) == LlmInputs.DEFAULT_LENGTH
+
+    # def test_create_openai_llm_inputs_cnn_dailymail(self):
+    #     """
+    #     Test CNN_DAILYMAIL can be accessed
+    #     """
+    #     pa_json = LlmInputs.create_llm_inputs(
+    #         input_type=PromptSource.DATASET,
+    #         dataset_name=CNN_DAILY_MAIL,
+    #         output_format=OutputFormat.OPENAI_CHAT_COMPLETIONS,
+    #         model_name=["test_model_A"],
+    #     )
+
+    #     os.remove(DEFAULT_INPUT_DATA_JSON)
+
+    #     assert pa_json is not None
+    #     assert len(pa_json["data"]) == LlmInputs.DEFAULT_LENGTH
+
+    # def test_write_to_file(self):
+    #     """
+    #     Test that write to file is working correctly
+    #     """
+    #     pa_json = LlmInputs.create_llm_inputs(
+    #         input_type=PromptSource.DATASET,
+    #         dataset_name=OPEN_ORCA,
+    #         output_format=OutputFormat.OPENAI_CHAT_COMPLETIONS,
+    #         model_name="open_orca",
+    #         add_model_name=True,
+    #         add_stream=True,
+    #     )
+    #     try:
+    #         with open(DEFAULT_INPUT_DATA_JSON, "r") as f:
+    #             json_str = f.read()
+    #     finally:
+    #         os.remove(DEFAULT_INPUT_DATA_JSON)
+
+    #     assert pa_json == json.loads(json_str)
+
+    # def test_create_openai_to_vllm(self):
+    #     """
+    #     Test conversion of openai to vllm
+    #     """
+    #     pa_json = LlmInputs.create_llm_inputs(
+    #         input_type=PromptSource.DATASET,
+    #         output_format=OutputFormat.VLLM,
+    #         dataset_name=OPEN_ORCA,
+    #         add_model_name=False,
+    #         add_stream=True,
+    #         model_name=["test_model_A"],
+    #     )
+
+    #     os.remove(DEFAULT_INPUT_DATA_JSON)
+
+    #     assert pa_json is not None
+    #     assert len(pa_json["data"]) == LlmInputs.DEFAULT_LENGTH
+
+    # def test_create_openai_to_completions(self):
+    #     """
+    #     Test conversion of openai to completions
+    #     """
+    #     pa_json = LlmInputs.create_llm_inputs(
+    #         input_type=PromptSource.DATASET,
+    #         output_format=OutputFormat.OPENAI_COMPLETIONS,
+    #         dataset_name=OPEN_ORCA,
+    #         add_model_name=False,
+    #         add_stream=True,
+    #         model_name=["test_model_A"],
+    #     )
+
+    #     os.remove(DEFAULT_INPUT_DATA_JSON)
+
+    #     assert pa_json is not None
+    #     assert len(pa_json["data"]) == LlmInputs.DEFAULT_LENGTH
+    #     # NIM legacy completion endpoint only supports string and not
+    #     # array of strings. Verify that the prompt is of type string
+    #     # not list
+    #     assert isinstance(pa_json["data"][0]["payload"][0]["prompt"], str)
+
+    # def test_create_openai_to_trtllm(self):
+    #     """
+    #     Test conversion of openai to trtllm
+    #     """
+    #     pa_json = LlmInputs.create_llm_inputs(
+    #         input_type=PromptSource.DATASET,
+    #         output_format=OutputFormat.TENSORRTLLM,
+    #         dataset_name=OPEN_ORCA,
+    #         add_model_name=False,
+    #         add_stream=True,
+    #         model_name=["test_model_A"],
+    #     )
+
+    #     os.remove(DEFAULT_INPUT_DATA_JSON)
+
+    #     assert pa_json is not None
+    #     assert len(pa_json["data"]) == LlmInputs.DEFAULT_LENGTH
+
+    # def test_random_synthetic_no_stddev(self, default_tokenizer):
+    #     """
+    #     Test that we can produce an exact number of random synthetic tokens
+    #     """
+    #     random.seed(1)
+
+    #     def _subtest(token_length):
+    #         synthetic_prompt = LlmInputs._create_synthetic_prompt(
+    #             tokenizer=default_tokenizer,
+    #             prompt_tokens_mean=token_length,
+    #             prompt_tokens_stddev=0,
+    #         )
+
+    #         actual_token_length = len(default_tokenizer.encode(synthetic_prompt))
+    #         assert token_length == actual_token_length
+
+    #     # Test all of 500-600 to make sure exact
+    #     for i in range(500, 600):
+    #         _subtest(i)
+
+    #     # Test some larger values
+    #     _subtest(1500)
+    #     _subtest(10000)
+
+    # def test_random_synthetic_stddev(self, default_tokenizer):
+    #     """
+    #     Test that we can produce random synthetic tokens within a requested stddev
+    #     """
+    #     random.seed(1)
+
+    #     def _subtest(num_samples, mean, stddev):
+    #         prompt_tokens = []
+    #         for _ in range(num_samples):
+    #             prompt = LlmInputs._create_synthetic_prompt(
+    #                 tokenizer=default_tokenizer,
+    #                 prompt_tokens_mean=mean,
+    #                 prompt_tokens_stddev=stddev,
+    #             )
+    #             prompt_tokens.append(len(default_tokenizer.encode(prompt)))
+
+    #         assert statistics.mean(prompt_tokens) == pytest.approx(mean, rel=0.1)
+    #         assert statistics.stdev(prompt_tokens) == pytest.approx(stddev, rel=0.2)
+
+    #     _subtest(50, 200, 20)
+    #     _subtest(50, 400, 10)
+    #     _subtest(200, 50, 10)
+
+    # def test_random_seed(self, default_tokenizer):
+    #     """
+    #     Test that when given the same seed, create_llm_inputs will return the same result,
+    #     and that when given a different seed, it will produce a different result
+    #     """
+
+    #     inputs_seed5_a = LlmInputs.create_llm_inputs(
+    #         tokenizer=default_tokenizer,
+    #         input_type=PromptSource.SYNTHETIC,
+    #         output_format=OutputFormat.TENSORRTLLM,
+    #         prompt_tokens_mean=300,
+    #         prompt_tokens_stddev=20,
+    #         num_of_output_prompts=5,
+    #         random_seed=5,
+    #         model_name=["test_model_A"],
+    #     )
+
+    #     inputs_seed5_b = LlmInputs.create_llm_inputs(
+    #         tokenizer=default_tokenizer,
+    #         input_type=PromptSource.SYNTHETIC,
+    #         output_format=OutputFormat.TENSORRTLLM,
+    #         prompt_tokens_mean=300,
+    #         prompt_tokens_stddev=20,
+    #         num_of_output_prompts=5,
+    #         random_seed=5,
+    #         model_name=["test_model_A"],
+    #     )
+
+    #     inputs_seed10 = LlmInputs.create_llm_inputs(
+    #         tokenizer=default_tokenizer,
+    #         input_type=PromptSource.SYNTHETIC,
+    #         output_format=OutputFormat.TENSORRTLLM,
+    #         prompt_tokens_mean=300,
+    #         prompt_tokens_stddev=20,
+    #         num_of_output_prompts=5,
+    #         random_seed=10,
+    #         model_name=["test_model_A"],
+    #     )
+
+    #     assert inputs_seed5_a == inputs_seed5_b
+    #     assert inputs_seed5_a != inputs_seed10
+
+    # def test_synthetic_to_vllm(self, default_tokenizer):
+    #     """
+    #     Test generating synthetic prompts and converting to vllm
+    #     """
+    #     pa_json = LlmInputs.create_llm_inputs(
+    #         input_type=PromptSource.SYNTHETIC,
+    #         output_format=OutputFormat.VLLM,
+    #         num_of_output_prompts=5,
+    #         add_model_name=False,
+    #         add_stream=True,
+    #         tokenizer=default_tokenizer,
+    #         model_name=["test_model_A"],
+    #     )
+
+    #     os.remove(DEFAULT_INPUT_DATA_JSON)
+
+    #     assert pa_json is not None
+    #     assert len(pa_json["data"]) == 5
+
+    # def test_synthetic_to_trtllm(self, default_tokenizer):
+    #     """
+    #     Test generating synthetic prompts and converting to trtllm
+    #     """
+    #     pa_json = LlmInputs.create_llm_inputs(
+    #         input_type=PromptSource.SYNTHETIC,
+    #         output_format=OutputFormat.TENSORRTLLM,
+    #         num_of_output_prompts=5,
+    #         add_model_name=False,
+    #         add_stream=True,
+    #         tokenizer=default_tokenizer,
+    #         model_name=["test_model_A"],
+    #     )
+
+    #     os.remove(DEFAULT_INPUT_DATA_JSON)
+
+    #     assert pa_json is not None
+    #     assert len(pa_json["data"]) == 5
+
+    # def test_synthetic_to_openai_chat_completions(self, default_tokenizer):
+    #     """
+    #     Test generating synthetic prompts and converting to OpenAI chat completions
+    #     """
+    #     pa_json = LlmInputs.create_llm_inputs(
+    #         input_type=PromptSource.SYNTHETIC,
+    #         output_format=OutputFormat.OPENAI_CHAT_COMPLETIONS,
+    #         num_of_output_prompts=5,
+    #         add_model_name=False,
+    #         add_stream=True,
+    #         tokenizer=default_tokenizer,
+    #         model_name=["test_model_A"],
+    #     )
+
+    #     os.remove(DEFAULT_INPUT_DATA_JSON)
+
+    #     assert pa_json is not None
+    #     assert len(pa_json["data"]) == 5
+
+    # def test_synthetic_to_openai_completions(self, default_tokenizer):
+    #     """
+    #     Test generating synthetic prompts and converting to OpenAI completions
+    #     """
+    #     pa_json = LlmInputs.create_llm_inputs(
+    #         input_type=PromptSource.SYNTHETIC,
+    #         output_format=OutputFormat.OPENAI_COMPLETIONS,
+    #         num_of_output_prompts=5,
+    #         add_model_name=False,
+    #         add_stream=True,
+    #         tokenizer=default_tokenizer,
+    #         model_name=["test_model_A"],
+    #     )
+
+    #     os.remove(DEFAULT_INPUT_DATA_JSON)
+
+    #     assert pa_json is not None
+    #     assert len(pa_json["data"]) == 5
+
+    # @pytest.mark.parametrize(
+    #     "output_format",
+    #     [format[2] for format in SERVICE_KIND_BACKEND_ENDPOINT_TYPE_FORMATS],
+    # )
+    # def test_extra_inputs(
+    #     self, default_tokenizer: Tokenizer, output_format: OutputFormat
+    # ) -> None:
+    #     input_name = "max_tokens"
+    #     input_value = 5
+    #     request_inputs = {input_name: input_value}
+
+    #     pa_json = LlmInputs.create_llm_inputs(
+    #         input_type=PromptSource.SYNTHETIC,
+    #         output_format=output_format,
+    #         num_of_output_prompts=5,
+    #         add_model_name=False,
+    #         add_stream=True,
+    #         tokenizer=default_tokenizer,
+    #         extra_inputs=request_inputs,
+    #         model_name=["test_model_A"],
+    #     )
+
+    #     assert len(pa_json["data"]) == 5
+
+    #     if (
+    #         output_format == OutputFormat.OPENAI_CHAT_COMPLETIONS
+    #         or output_format == OutputFormat.OPENAI_COMPLETIONS
+    #     ):
+    #         for entry in pa_json["data"]:
+    #             assert "payload" in entry, "Payload is missing in the request"
+    #             payload = entry["payload"]
+    #             for item in payload:
+    #                 assert (
+    #                     input_name in item
+    #                 ), f"The input name {input_name} is not present in the request"
+    #                 assert (
+    #                     item[input_name] == input_value
+    #                 ), f"The value of {input_name} is incorrect"
+    #     elif (
+    #         output_format == OutputFormat.TENSORRTLLM
+    #         or output_format == OutputFormat.VLLM
+    #     ):
+    #         for entry in pa_json["data"]:
+    #             assert (
+    #                 input_name in entry
+    #             ), f"The {input_name} is not present in the request"
+    #             assert entry[input_name] == [
+    #                 input_value
+    #             ], f"The value of {input_name} is incorrect"
+    #     else:
+    #         assert False, f"Unsupported output format: {output_format}"
+
+    # def test_trtllm_default_max_tokens(self, default_tokenizer: Tokenizer) -> None:
+    #     input_name = "max_tokens"
+    #     input_value = 256
+
+    #     pa_json = LlmInputs.create_llm_inputs(
+    #         input_type=PromptSource.SYNTHETIC,
+    #         output_format=OutputFormat.TENSORRTLLM,
+    #         num_of_output_prompts=5,
+    #         add_model_name=False,
+    #         add_stream=True,
+    #         tokenizer=default_tokenizer,
+    #         model_name=["test_model_A"],
+    #     )
+
+    #     assert len(pa_json["data"]) == 5
+    #     for entry in pa_json["data"]:
+    #         assert (
+    #             input_name in entry
+    #         ), f"The {input_name} is not present in the request"
+    #         assert entry[input_name] == [
+    #             input_value
+    #         ], f"The value of {input_name} is incorrect"
+
+    # @pytest.mark.parametrize(
+    #     "output_format",
+    #     [format[2] for format in SERVICE_KIND_BACKEND_ENDPOINT_TYPE_FORMATS],
+    # )
+    # def test_output_tokens_mean(self, output_format, default_tokenizer):
+    #     if (
+    #         output_format != OutputFormat.VLLM
+    #         and output_format != OutputFormat.TENSORRTLLM
+    #     ):
+    #         return
+
+    #     output_tokens_mean = 100
+    #     output_tokens_stddev = 0
+    #     for deterministic in [True, False]:
+    #         _ = LlmInputs.create_llm_inputs(
+    #             input_type=PromptSource.SYNTHETIC,
+    #             output_format=output_format,
+    #             num_of_output_prompts=5,
+    #             add_model_name=False,
+    #             add_stream=True,
+    #             tokenizer=default_tokenizer,
+    #             output_tokens_mean=output_tokens_mean,
+    #             output_tokens_stddev=output_tokens_stddev,
+    #             output_tokens_deterministic=deterministic,
+    #             model_name=["test_model_A"],
+    #         )
+
+    #         assert os.path.exists(
+    #             DEFAULT_INPUT_DATA_JSON
+    #         ), "llm_inputs.json file is not created"
+
+    #         with open(DEFAULT_INPUT_DATA_JSON, "r") as f:
+    #             llm_inputs_data = json.load(f)
+
+    #         for entry in llm_inputs_data["data"]:
+    #             if output_format == OutputFormat.VLLM:
+    #                 assert (
+    #                     "sampling_parameters" in entry
+    #                 ), "sampling_parameters is missing in llm_inputs.json"
+    #                 sampling_parameters = json.loads(entry["sampling_parameters"][0])
+    #                 assert (
+    #                     "max_tokens" in sampling_parameters
+    #                 ), "max_tokens parameter is missing in sampling_parameters"
+    #                 assert sampling_parameters["max_tokens"] == str(
+    #                     output_tokens_mean
+    #                 ), "max_tokens parameter is not properly set"
+    #                 if deterministic:
+    #                     assert (
+    #                         "min_tokens" in sampling_parameters
+    #                     ), "min_tokens parameter is missing in sampling_parameters"
+    #                     assert sampling_parameters["min_tokens"] == str(
+    #                         output_tokens_mean
+    #                     ), "min_tokens parameter is not properly set"
+    #                 else:
+    #                     assert (
+    #                         "min_tokens" not in sampling_parameters
+    #                     ), "min_tokens parameter is present in sampling_parameters"
+    #             elif output_format == OutputFormat.TENSORRTLLM:
+    #                 assert (
+    #                     "max_tokens" in entry
+    #                 ), "max_tokens parameter is missing in llm_inputs.json"
+    #                 assert (
+    #                     entry["max_tokens"][0] == output_tokens_mean
+    #                 ), "max_tokens parameter is not properly set"
+    #                 if deterministic:
+    #                     assert (
+    #                         "min_length" in entry
+    #                     ), "min_length parameter is missing in llm_inputs.json"
+    #                     assert (
+    #                         entry["min_length"][0] == output_tokens_mean
+    #                     ), "min_length parameter is not properly set"
+    #                 else:
+    #                     assert (
+    #                         "min_length" not in entry
+    #                     ), "min_length parameter is present in llm_inputs.json"
+    #             else:
+    #                 assert False, f"Unsupported output format: {output_format}"
+
+    #         os.remove(DEFAULT_INPUT_DATA_JSON)
 
-        assert pa_json is not None
-        assert len(pa_json["data"]) == 5
+    def test_get_input_file_without_file_existing(self):
+        with pytest.raises(FileNotFoundError):
+            LlmInputs._get_input_dataset_from_file(Path("prompt.txt"))
 
     @pytest.mark.parametrize(
-        "output_format",
-        [format[2] for format in SERVICE_KIND_BACKEND_ENDPOINT_TYPE_FORMATS],
+        "seed, model_name_list, index,model_selection_strategy,expected_model",
+        [
+            (
+                1,
+                ["test_model_A", "test_model_B", "test_model_C"],
+                0,
+                ModelSelectionStrategy.ROUND_ROBIN,
+                "test_model_A",
+            ),
+            (
+                1,
+                ["test_model_A", "test_model_B", "test_model_C"],
+                1,
+                ModelSelectionStrategy.ROUND_ROBIN,
+                "test_model_B",
+            ),
+            (
+                1,
+                ["test_model_A", "test_model_B", "test_model_C"],
+                2,
+                ModelSelectionStrategy.ROUND_ROBIN,
+                "test_model_C",
+            ),
+            (
+                1,
+                ["test_model_A", "test_model_B", "test_model_C"],
+                3,
+                ModelSelectionStrategy.ROUND_ROBIN,
+                "test_model_A",
+            ),
+            (
+                100,
+                ["test_model_A", "test_model_B", "test_model_C"],
+                0,
+                ModelSelectionStrategy.RANDOM,
+                "test_model_A",
+            ),
+            (
+                100,
+                ["test_model_A", "test_model_B", "test_model_C"],
+                1,
+                ModelSelectionStrategy.RANDOM,
+                "test_model_A",
+            ),
+            (
+                1652,
+                ["test_model_A", "test_model_B", "test_model_C"],
+                0,
+                ModelSelectionStrategy.RANDOM,
+                "test_model_B",
+            ),
+            (
+                95,
+                ["test_model_A", "test_model_B", "test_model_C"],
+                0,
+                ModelSelectionStrategy.RANDOM,
+                "test_model_C",
+            ),
+        ],
     )
-    def test_extra_inputs(
-        self, default_tokenizer: Tokenizer, output_format: OutputFormat
-    ) -> None:
-        input_name = "max_tokens"
-        input_value = 5
-        request_inputs = {input_name: input_value}
-
-        pa_json = LlmInputs.create_llm_inputs(
-            input_type=PromptSource.SYNTHETIC,
-            output_format=output_format,
-            num_of_output_prompts=5,
-            add_model_name=False,
-            add_stream=True,
-            tokenizer=default_tokenizer,
-            extra_inputs=request_inputs,
-        )
+    def test_select_model_name(
+        self, seed, model_name_list, index, model_selection_strategy, expected_model
+    ):
+        """
+        Test that model selection strategy controls the model selected
+        """
+        random.seed(seed)
 
-        assert len(pa_json["data"]) == 5
-
-        if (
-            output_format == OutputFormat.OPENAI_CHAT_COMPLETIONS
-            or output_format == OutputFormat.OPENAI_COMPLETIONS
-        ):
-            for entry in pa_json["data"]:
-                assert "payload" in entry, "Payload is missing in the request"
-                payload = entry["payload"]
-                for item in payload:
-                    assert (
-                        input_name in item
-                    ), f"The input name {input_name} is not present in the request"
-                    assert (
-                        item[input_name] == input_value
-                    ), f"The value of {input_name} is incorrect"
-        elif (
-            output_format == OutputFormat.TENSORRTLLM
-            or output_format == OutputFormat.VLLM
-        ):
-            for entry in pa_json["data"]:
-                assert (
-                    input_name in entry
-                ), f"The {input_name} is not present in the request"
-                assert entry[input_name] == [
-                    input_value
-                ], f"The value of {input_name} is incorrect"
-        else:
-            assert False, f"Unsupported output format: {output_format}"
-
-    def test_trtllm_default_max_tokens(self, default_tokenizer: Tokenizer) -> None:
-        input_name = "max_tokens"
-        input_value = 256
-
-        pa_json = LlmInputs.create_llm_inputs(
-            input_type=PromptSource.SYNTHETIC,
-            output_format=OutputFormat.TENSORRTLLM,
-            num_of_output_prompts=5,
-            add_model_name=False,
-            add_stream=True,
-            tokenizer=default_tokenizer,
+        actual_model = LlmInputs._select_model_name(
+            model_name_list, index, model_selection_strategy
         )
-
-        assert len(pa_json["data"]) == 5
-        for entry in pa_json["data"]:
-            assert (
-                input_name in entry
-            ), f"The {input_name} is not present in the request"
-            assert entry[input_name] == [
-                input_value
-            ], f"The value of {input_name} is incorrect"
-
-    @pytest.mark.parametrize(
-        "output_format",
-        [format[2] for format in SERVICE_KIND_BACKEND_ENDPOINT_TYPE_FORMATS],
-    )
-    def test_output_tokens_mean(self, output_format, default_tokenizer):
-        if (
-            output_format != OutputFormat.VLLM
-            and output_format != OutputFormat.TENSORRTLLM
-        ):
-            return
-
-        output_tokens_mean = 100
-        output_tokens_stddev = 0
-        for deterministic in [True, False]:
-            _ = LlmInputs.create_llm_inputs(
-                input_type=PromptSource.SYNTHETIC,
-                output_format=output_format,
-                num_of_output_prompts=5,
-                add_model_name=False,
-                add_stream=True,
-                tokenizer=default_tokenizer,
-                output_tokens_mean=output_tokens_mean,
-                output_tokens_stddev=output_tokens_stddev,
-                output_tokens_deterministic=deterministic,
-            )
-
-            assert os.path.exists(
-                DEFAULT_INPUT_DATA_JSON
-            ), "llm_inputs.json file is not created"
-
-            with open(DEFAULT_INPUT_DATA_JSON, "r") as f:
-                llm_inputs_data = json.load(f)
-
-            for entry in llm_inputs_data["data"]:
-                if output_format == OutputFormat.VLLM:
-                    assert (
-                        "sampling_parameters" in entry
-                    ), "sampling_parameters is missing in llm_inputs.json"
-                    sampling_parameters = json.loads(entry["sampling_parameters"][0])
-                    assert (
-                        "max_tokens" in sampling_parameters
-                    ), "max_tokens parameter is missing in sampling_parameters"
-                    assert sampling_parameters["max_tokens"] == str(
-                        output_tokens_mean
-                    ), "max_tokens parameter is not properly set"
-                    if deterministic:
-                        assert (
-                            "min_tokens" in sampling_parameters
-                        ), "min_tokens parameter is missing in sampling_parameters"
-                        assert sampling_parameters["min_tokens"] == str(
-                            output_tokens_mean
-                        ), "min_tokens parameter is not properly set"
-                    else:
-                        assert (
-                            "min_tokens" not in sampling_parameters
-                        ), "min_tokens parameter is present in sampling_parameters"
-                elif output_format == OutputFormat.TENSORRTLLM:
-                    assert (
-                        "max_tokens" in entry
-                    ), "max_tokens parameter is missing in llm_inputs.json"
-                    assert (
-                        entry["max_tokens"][0] == output_tokens_mean
-                    ), "max_tokens parameter is not properly set"
-                    if deterministic:
-                        assert (
-                            "min_length" in entry
-                        ), "min_length parameter is missing in llm_inputs.json"
-                        assert (
-                            entry["min_length"][0] == output_tokens_mean
-                        ), "min_length parameter is not properly set"
-                    else:
-                        assert (
-                            "min_length" not in entry
-                        ), "min_length parameter is present in llm_inputs.json"
-                else:
-                    assert False, f"Unsupported output format: {output_format}"
-
-            os.remove(DEFAULT_INPUT_DATA_JSON)
-
-    def test_get_input_file_without_file_existing(self):
-        with pytest.raises(FileNotFoundError):
-            LlmInputs._get_input_dataset_from_file(Path("prompt.txt"))
+        assert actual_model == expected_model