Inhaltszusammenfassung:
Schriftdolmetschen ermöglicht gehörlosen und schwerhörigen Menschen Zugang zu gesprochener Sprache, doch eine fehlerfreie Echtzeit-Transkription bleibt eine Herausforderung. Professionelle Barrierefreiheitsdienste sind aufgrund hoher Kosten und des Mangels an geschultem Personal oft nicht verfügbar. Fortschritte in der automatischen Spracherkennung eröffnen neue Möglichkeiten, werfen aber auch Bedenken hinsichtlich der Genauigkeit und Zuverlässigkeit der Transkription auf. Diese Dissertation untersucht, wie Echtzeit-Transkription und die Messung von Transkriptionsqualität verbessert werden können.
Wir evaluieren einen teilautomatisierten Prozess, bei dem mehrere Personen automatische Spracherkennung in Echtzeit korrigieren, um die Verständlichkeit der Transkription zu erhöhen. Verschiedene Benutzeroberflächen werden hinsichtlich ihrer Effizienz und der resultierenden Transkriptionsqualität untersucht. Die Ergebnisse zeigen, dass trotz hoher Echtzeitanforderungen die Genauigkeit verbessert werden kann. Eine Evaluation mit Fokusgruppen zeigt zudem, dass die Korrekturen zu einer hohen Verständlichkeit beitragen und die Akzeptanz von automatischer Spracherkennung erhöhen.
Diese Arbeit befasst sich auch mit der Messung von Transkriptionsqualität, da bestehende Metriken die Verständlichkeit eines Textes nur unzureichend erfassen. Wir stellen eine Erweiterung des Levenshtein-Algorithmus vor, um die Robustheit durch die dynamische Erkennung von Komposita zu erhöhen. Zusätzlich werden durch einen tokenbasierten Ansatz Informationen erhalten, die sonst durch die Textnormalisierung verloren gehen. Die Ergebnisse zeigen, dass der erweiterte Algorithmus in der Lage ist, die Wortfehlerrate zuverlässig zu berechnen und gleichzeitig die Qualität der Interpunktion und der Groß-/Kleinschreibung zu erfassen. Die Berücksichtigung von Komposita reduziert zudem nichtsemantische Fehler und erhöht die Aussagekraft der Metrik.
Durch die Evaluation der teilautomatisierten Echtzeit-Transkription und die Verbesserung der Evaluationsmetriken leistet diese Arbeit einen Beitrag zur Entwicklung barrierefreier Technologien. Um eine nachhaltige Wirkung zu erzielen, wurde der Transkriptionsworkflow als Teil einer Open-Source-Videoplattform implementiert. Der erweiterte Levenshtein-Algorithmus wurde ebenfalls als Open-Source-Bibliothek veröffentlicht, um die Messung der Transkriptionsgenauigkeit zu verbessern und die Forschung zu Barrierefreiheitsmetriken zu unterstützen.
Abstract:
Transcription is crucial to making speech accessible for d/Deaf and hard of hearing (DHH) individuals, but accurate real-time captioning is challenging. Professional accessibility services rely on trained transcribers, who are costly and scarce, limiting their availability and the inclusivity of events. Advances in automatic speech recognition (ASR) offer new opportunities for accessibility but also raise concerns about transcription accuracy and reliability. ASR can produce serious errors that lead to unintelligible text, frustrating readers and hindering participation. In this cumulative thesis, we address these challenges through interrelated studies, evaluating a novel real-time captioning workflow and advancing transcription accuracy metrics.
We explore an alternative communication access realtime translation (CART) workflow that combines the speed of ASR with the accuracy of humans. Non-professionals collaboratively correct ASR output in real-time to reduce transcription errors and produce more accessible text. We evaluate several user interfaces to increase the efficiency of collaborative correction and the accessibility of the resulting transcripts. The results show that the semi-automated workflow can significantly improve accuracy despite the challenging real-time scenario. DHH ratings indicate that correcting state of the art ASR can increase transcription intelligibility from medium to high acceptance.
We also address the limitations of current metrics used to quantify transcription accuracy. The standard metric, word error rate (WER), has been repeatedly criticised as a measure of accessibility. We propose an extension to the underlying Levenshtein distance algorithm that improves robustness by incorporating compound word detection. We also use a token-based computational approach that preserves information typically lost during text normalisation. Our results show that the extended algorithm computes WER scores equivalent to the standard implementation while providing additional insights into punctuation and capitalisation. The detection of compound words significantly reduces non-semantic errors, further improving the meaningfulness of the score.
By addressing the challenges of real-time transcription and its evaluation metrics, this work contributes to the broader goal of inclusive technology design and accessible communication tools. The ASR correction workflow has been implemented in an open-source video platform to facilitate a sustainable impact. The extended WER computation is released as an open-source library, providing an improved evaluation of transcription accuracy and supporting ongoing research on accessibility metrics.