fix: filter spurious llama.cpp output

superlinear-ai · Dec 3, 2024 · 463b54e · 463b54e
1 parent 405818e
commit 463b54e
Showing 1 changed file with 6 additions and 1 deletion.
diff --git a/src/raglite/_litellm.py b/src/raglite/_litellm.py
@@ -1,10 +1,12 @@
 """Add support for llama-cpp-python models to LiteLLM."""
 
 import asyncio
+import contextlib
 import logging
 import warnings
 from collections.abc import AsyncIterator, Callable, Iterator
 from functools import cache
+from io import StringIO
 from typing import Any, ClassVar, cast
 
 import httpx
@@ -96,7 +98,10 @@ def llm(model: str, **kwargs: Any) -> Llama:
             filename, n_ctx_str = filename_n_ctx
             n_ctx = int(n_ctx_str)
         # Load the LLM.
-        with warnings.catch_warnings():  # Filter huggingface_hub warning about HF_TOKEN.
+        with (
+            contextlib.redirect_stdout(StringIO()),  # Filter spurious llama.cpp output.
+            warnings.catch_warnings(),  # Filter huggingface_hub warning about HF_TOKEN.
+        ):
             warnings.filterwarnings("ignore", category=UserWarning)
             llm = Llama.from_pretrained(
                 repo_id=repo_id,