-
Bestände an audiovisuellen Medien zugänglich machen durch Spracherkennung von Audio & Video, information extraction und Volltextsuche
-
für civil society & community media platforms (z.B. https://cba.media)
OAS core (API, search index) OAS worker (ASR, NLP) Trainings- und Evalutionspipeline
Python server: HTTP API und job queue
- Importiert Metadaten zu Audios via RSS-Feeds oder HTTP-API
- Speichert Metadaten in Datenbank und Such-Engine (Elasticsearch)
- HTTP-API für Frontends und Anbindungen
- Legt Transcription-Jobs in einer job queue ab
- Download der Media-Files
- Preprocessing (via ffmpeg)
- Diarisierung
- Spracherkennung (via Kaldi/Vosk, tendentiell pluggable)
- Information extraction (NLP, NER)
- Training von ASR-Modellen
- Evaluation auf Testdaten
- Grundzüge von Core, Worker, UI implementiert
- Processing- und ASR-Pipeline funktionsfähig, braucht noch Tuning
- Packaging & deployment via Docker
- Server für Produktivinstanz wurde gekauft und geht bald in Betrieb
- Tuning ASR-Pipeline
- NLP-Pipeline zur Informationsextraktion
- Punctuation reconstruction, Diarisierung
- Evaluations- und Trainingspipeline
- Balidger Produktiveinsatz nach Abschluss der Entwicklung bei cba.media und freie-radios.net geplant
- Gespräche mit weiteren Partner*innen laufen
- OAS 2.0: Replication & Federation