Open AudioSearch

Was ist Open AudioSearch?

Bestände an audiovisuellen Medien zugänglich machen durch Spracherkennung von Audio & Video, information extraction und Volltextsuche
für civil society & community media platforms (z.B. https://cba.media)

Wie funktioniert Open AudioSearch?

OAS core (API, search index) OAS worker (ASR, NLP) Trainings- und Evalutionspipeline

OAS core

Python server: HTTP API und job queue

Importiert Metadaten zu Audios via RSS-Feeds oder HTTP-API
Speichert Metadaten in Datenbank und Such-Engine (Elasticsearch)
HTTP-API für Frontends und Anbindungen
Legt Transcription-Jobs in einer job queue ab

OAS worker

Download der Media-Files
Preprocessing (via ffmpeg)
Diarisierung
Spracherkennung (via Kaldi/Vosk, tendentiell pluggable)
Information extraction (NLP, NER)

Trainings- und Evalutionspipeline

Training von ASR-Modellen
Evaluation auf Testdaten

Derzeitiger Entwicklungsstand

Stand jetzt

Grundzüge von Core, Worker, UI implementiert
Processing- und ASR-Pipeline funktionsfähig, braucht noch Tuning
Packaging & deployment via Docker
Server für Produktivinstanz wurde gekauft und geht bald in Betrieb

Next steps

Tuning ASR-Pipeline
NLP-Pipeline zur Informationsextraktion
Punctuation reconstruction, Diarisierung
Evaluations- und Trainingspipeline

Wie geht's weiter

Balidger Produktiveinsatz nach Abschluss der Entwicklung bei cba.media und freie-radios.net geplant
Gespräche mit weiteren Partner*innen laufen
OAS 2.0: Replication & Federation

Danke!