Skip to content

Latest commit

 

History

History
76 lines (47 loc) · 1.59 KB

oas-2021-05.md

File metadata and controls

76 lines (47 loc) · 1.59 KB

Open AudioSearch


Was ist Open AudioSearch?

  • Bestände an audiovisuellen Medien zugänglich machen durch Spracherkennung von Audio & Video, information extraction und Volltextsuche

  • für civil society & community media platforms (z.B. https://cba.media)


Wie funktioniert Open AudioSearch?

OAS core (API, search index) OAS worker (ASR, NLP) Trainings- und Evalutionspipeline


OAS core

Python server: HTTP API und job queue

  • Importiert Metadaten zu Audios via RSS-Feeds oder HTTP-API
  • Speichert Metadaten in Datenbank und Such-Engine (Elasticsearch)
  • HTTP-API für Frontends und Anbindungen
  • Legt Transcription-Jobs in einer job queue ab

OAS worker

  • Download der Media-Files
  • Preprocessing (via ffmpeg)
  • Diarisierung
  • Spracherkennung (via Kaldi/Vosk, tendentiell pluggable)
  • Information extraction (NLP, NER)

Trainings- und Evalutionspipeline

  • Training von ASR-Modellen
  • Evaluation auf Testdaten

Derzeitiger Entwicklungsstand

Stand jetzt

  • Grundzüge von Core, Worker, UI implementiert
  • Processing- und ASR-Pipeline funktionsfähig, braucht noch Tuning
  • Packaging & deployment via Docker
  • Server für Produktivinstanz wurde gekauft und geht bald in Betrieb

Next steps

  • Tuning ASR-Pipeline
  • NLP-Pipeline zur Informationsextraktion
  • Punctuation reconstruction, Diarisierung
  • Evaluations- und Trainingspipeline

Wie geht's weiter

  • Balidger Produktiveinsatz nach Abschluss der Entwicklung bei cba.media und freie-radios.net geplant
  • Gespräche mit weiteren Partner*innen laufen
  • OAS 2.0: Replication & Federation

Danke!