speaches-ai · JonnyTran · Jan 30, 2025 · Jan 30, 2025 · Feb 7, 2025
diff --git a/pyproject.toml b/pyproject.toml
@@ -7,6 +7,7 @@ dependencies = [
     "ctranslate2>=4.5.0",
     "fastapi>=0.115.6",
     "faster-whisper>=1.1.1",
+    "ffmpeg-python>=0.2.0",
     "huggingface-hub[hf-transfer]>=0.25.1",
     "kokoro-onnx[gpu]>=0.3.6,<0.4.0",
     "numpy>=2.1.1",

diff --git a/src/speaches/audio.py b/src/speaches/audio.py
@@ -7,6 +7,7 @@
 
 import numpy as np
 import soundfile as sf
+import ffmpeg
 
 from speaches.config import SAMPLES_PER_SECOND
 
@@ -50,9 +51,40 @@ def convert_audio_format(
         subtype=subtype,
         endian=endian,
     )
-    converted_audio_bytes_buffer = io.BytesIO()
-    sf.write(converted_audio_bytes_buffer, data, samplerate=sample_rate, format=audio_format)
-    return converted_audio_bytes_buffer.getvalue()
+
+    if audio_format == "aac":
+        try:
+            # Write to WAV in memory
+            wav_buffer = io.BytesIO()
+            sf.write(wav_buffer, data, samplerate=sample_rate, format='WAV')
+            wav_bytes = wav_buffer.getvalue()
+
+            # Convert WAV to AAC using ffmpeg
+            input_stream = ffmpeg.input('pipe:', format='wav')
+            output_stream = ffmpeg.output(
+                input_stream,
+                'pipe:', 
+                acodec='aac',
+                ab='192k',
+                f='adts'  # AAC container format
+            )
+
+            out_bytes, _ = ffmpeg.run(
+                output_stream, 
+                input=wav_bytes,  # Use the WAV bytes
+                capture_stdout=True,
+                capture_stderr=True
+            )
+
+            return out_bytes
+
+        except ffmpeg.Error as e:
+            logger.error(f"FFmpeg conversion failed: {e.stderr.decode()}")
+            raise
+    else:
+        converted_audio_bytes_buffer = io.BytesIO()
+        sf.write(converted_audio_bytes_buffer, data, samplerate=sample_rate, format=audio_format)
+        return converted_audio_bytes_buffer.getvalue()
 
 
 def audio_samples_from_file(file: BinaryIO) -> NDArray[np.float32]:

diff --git a/src/speaches/routers/speech.py b/src/speaches/routers/speech.py
@@ -29,9 +29,9 @@
 OPENAI_SUPPORTED_SPEECH_VOICE_NAMES = ("alloy", "echo", "fable", "onyx", "nova", "shimmer")
 
 # https://platform.openai.com/docs/guides/text-to-speech/supported-output-formats
-type ResponseFormat = Literal["mp3", "flac", "wav", "pcm"]
-SUPPORTED_RESPONSE_FORMATS = ("mp3", "flac", "wav", "pcm")
-UNSUPORTED_RESPONSE_FORMATS = ("opus", "aac")
+type ResponseFormat = Literal["mp3", "flac", "wav", "pcm", "aac"]
+SUPPORTED_RESPONSE_FORMATS = ("mp3", "flac", "wav", "pcm", "aac")
+UNSUPORTED_RESPONSE_FORMATS = ("opus")
 
 MIN_SAMPLE_RATE = 8000
 MAX_SAMPLE_RATE = 48000

diff --git a/uv.lock b/uv.lock