APA-IT hat Technologie zur automatischen Spracherkennung

BIZEPS-INFO führte dazu mit DI Manfred Mitterholzer, dem Leiter der APA-IT-Innovation, ein schriftliches Interview, in dem er das Produkt "APA-IT-Spracherkennung" ausführlich erklärte.

APA-IT-Spracherkennung
APA-IT

BIZEPS-INFO: Was kann die „APA-IT-Spracherkennung“ und warum wurde sie entwickelt?

DI Manfred Mitterholzer: Als Nachrichtenagentur hat die APA mit Texten aller Art zu tun – nicht zuletzt, mit gesprochenen Texten in Radio- und Fernsehbeiträgen. Die Transkription dieser Beiträge – die Umwandlung des gesprochenen Wortes in Text – war bisher ein mühsames, langwieriges Unterfangen, bei dem Mitarbeiter stundenlang konzentriert zuhören und das Gehörte niederschreiben mussten.

Um den Prozess zu vereinfachen, entwickelte die APA-IT eine Technologie zur automatischen Spracherkennung, die automatische Umwandlung von gesprochenem Wort in geschriebenen Text ermöglicht.

Technologisch gesehen ist die so genannte LVCSR (Large Vocabulary Continuous Speech Recognition) die größte Herausforderung im Bereich der automatischen Spracherkennung. Alle Wörter müssen erkannt werden, auch wenn in einem Beitrag mehrere, verschiedene Sprecher sprechen. Ein Beispiel dafür sind Radio- und Fernsehbeiträge, in denen kontinuierlich in unterschiedlichen Umgebungen gesprochen wird. (Clean Speech von Moderatoren, Interview auf der Straße, im Parlament, mit Musik im Hintergrund etc.)

Spracherkennung basiert auf statistischen Modellen, die eine bestimmte Sprache so gut wie möglich modellieren sollen. Mithilfe des umfangreichen APA-Datenbestandes aus tagesaktuellen Audiofiles und Texten konnte die APA-IT sowohl für deutsches als auch für österreichisches Deutsch optimale Modelle erstellen. Dadurch wird es möglich, Tonspuren von verschiedensten TV- und Radioquellen in Echtzeit zu erkennen und zu verarbeiten.

Wichtig ist hier zu bemerken, dass die Sprache lebt und wächst: Jeden Tag entstehen neue Wörter, wie beispielsweise neue Personennamen – deshalb müssen auch die statistischen Sprachmodelle laufend aktualisiert werden. Der Sprachschatz des APA-Datenbestandes ist immer tagesaktuell und bildet damit die optimale Basis zur kontinuierlichen Aktualisierung der statistischen Sprachmodelle. Das Resultat: höchste Leistungen in der Spracherkennung.

BIZEPS-INFO: Welche Funktionen hat die Spracherkennung?

DI Manfred Mitterholzer: Die APA-IT Spracherkennung stellt folgende Funktionen zur Verfügung:

  • Automatische Trennung zwischen gesprochenen und nicht gesprochenen Elementen: der Audio Stream wird in Sprache, Musik und Stille unterteilt.
  • Automatische Unterteilung eines Audio Streams in verschiedene Sprecher
  • Large Vocabulary Continuous Speech Recognition – Kontinuierliche Spracherkennung: diese Funktion stellt die größte Herausforderung dar. Das System muss dafür mehr als 100.000 Wörter erkennen. Erst dann ist es möglich, kontinuierliches, gesprochenes Wort zu transkribieren, egal, wer gerade spricht und egal in welcher akustischen Umgebung gesprochen wird. Der transkribierte Text kann in Echtzeit in verschiedenen Formaten dargestellt werden, unter anderem auch in XML, wobei jedes Wort mit einem Zeitstempel versehen wird.
  • Automatische Sprecheridentifikation: es wird automatisch erkannt, wer gerade spricht.

Alle diese Funktionen können untereinander kombiniert werden. Mit über 95 % Erkennungsgenauigkeit, also Richtigkeit der transkribierten Wörter, kann sich die APA-IT Spracherkennung leicht mit anderen state-of-the-art-Systemen messen. Die Transkription erfolgt in Echtzeit – der geschriebene Text erscheint bereits zwei Sekunden nach dem er gesprochen wurde.

Anhand des täglich wachsenden, immer aktuellen APA-Datenbestandes lernt das System selbstständig und muss nicht extra auf neue Wörter trainiert werden.

Ein anderer Name für Spracherkennung ist auch Speech to text.

BIZEPS-INFO: Wer kann das Produkt benutzen und wofür genau?

DI Manfred Mitterholzer: Es gibt mittlerweile verschiedene Produkte, die auf Spracherkennung basieren. Beispiele dafür sind:

  • Professionellen Anwendungen für die Medienbeobachtung (Überwachung von Radio-/TV-Sendern) rund um die Uhr. Nutzer sind hier Agenturen, PR-Abteilungen in Unternehmen oder auch TV- und Radio-Anstalten oder Printmedien.
  • Das automatisierte Einspielen von Untertiteln, z. B. bei Fernsehsendungen.
  • Archivierung und automatische Beschlagwortung von Audio- und Video-Daten. Dabei kann der gesprochene Text aller Audio- oder Video-File in einer Datenbank im Volltext durchsucht werden. Man kann quasi in den Video-Inhalten suchen. Außerdem können die Texte, beispielsweise für Hörbehinderte, unter dem Video dargestellt werden. Die APA-IT bietet diese Funktion in der Videosuche ihrer Portalsuchmaschine SiteSearch+ an.

BIZEPS-INFO: In angelsächsischen Ländern ist die automatische Spracherkennung (speech-to-text) anscheinend besser, weil es dort bessere Produkte gibt. Ist das noch immer so?

DI Manfred Mitterholzer: Die APA-IT hat ein spezielles System für österreichisches Deutsch entwickelt. Deshalb konnte die Erkennungsgenauigkeit bis zu 95% für Nachrichtensendungen gesteigert werden. Kein englisches System am Markt erreicht zur Zeit diese Genauigkeit.

BIZEPS-INFO: Wird das Produkt schon in der Praxis eingesetzt?

DI Manfred Mitterholzer: Ja, seit 2007 bei der APA-Tochter APA-DeFacto in der Medienbeobachtung.

Seit langem sind bereits Aufzeichnungen und Abschriften aller wesentlichen österreichischen Radio-Nachrichtensendungen in den Datenbanken der APA Tochter APA-DeFacto verfügbar. Die Transkription dieser Beiträge – die Umwandlung des gesprochenen Wortes in Text – war bisher ein mühsames, langwieriges Unterfangen, bei dem Mitarbeiter stundenlang konzentriert zuhören und das Gehörte niederschreiben mussten.

Seit Anfang Oktober 2007 erstellt die APA-DeFacto mittels automatischer APA-IT-Spracherkennung Transkripte aller Sendungen von Radio Ö1 und Ö3. Jeder Radio-Beitrag wird dabei vollständig in geschriebenen Text „übersetzt“.

Ein Zusatzfeature ist die automatische Benachrichtigung von Kunden, wenn im Text ein von ihnen vordefiniertes Wort vorkommt, das den Beitrag thematisch interessant macht. Die Spracherkennung „scannt“ jeden Beitrag, bis das jeweilige Stichwort erkannt wird und gibt bei Erkennung dieses Stichwortes einen Alarm aus. Dadurch sind die Kunden beinahe in Echtzeit auf dem Laufenden, was im Radio gesendet wird und können umgehend auf neue Ereignisse reagieren. Die automatisch erstellten Transkripte sichern dabei eine lückenlose Medienbeobachtung der beiden Sender.

BIZEPS-INFO: Welche technologischen Herausforderungen mussten bewältigt werden?

DI Manfred Mitterholzer: Um die Sprecher-Unabhängigkeit des APA-IT-Systems zu sichern (jeder Sprecher spricht ein bisschen anders), war es notwendig, eine große Menge an Audio- und Video-Daten zu sammeln, anhand derer die APA-IT-Spracherkennung trainiert wurde.

Die Algorithmen, die hinter der APA-IT-Spracherkennung stehen, sind sehr komplex und mussten eigens für diesen Zweck entwickelt werden. Außerdem war die Umwandlung von gesprochenem Wort in geschriebenen Text mit einer maximalen Verzögerung von zwei Sekunden eine große Herausforderung. Die APA-IT, als Tochter der APA – Austria Presse Agentur konnte hier ihre Erfahrung mit großen Datenmengen und Echtzeit-Produktions-Systemen nutzen.

BIZEPS-INFO: Wir danken für das Interview!

Hier beginnt der Werbebereich Hier endet der Werbebereich
Hier beginnt der Werbebereich Hier endet der Werbebereich

Hinterlassen Sie einen Kommentar

Die Kommentarfunktion für diesen Artikel ist abgeschalten.

2 Kommentare

  • Hat nix mit ORF zu tun, also dürfte es ein gutes Produkt sein!

  • Das mit der Spracherkennungssoftware kenn ich schon länger und habe damit selber experimentiert (IBM VoiceTyping/Linguatec, Dragon Naturally Speaking). Man muss deutlich und unbedingt in Schriftsprache sprechen, und auch eine gute Stimme haben. Dann kann das durchaus klappen. Ich sage aber bewusst nicht gut oder super. Aber man muss lange damit üben und das System quasi trainieren.
    Kam ein neuer Sprecher dazu, sank die Erkennungsrate dramatisch. In Schriftsprache sprechen fordert vom Sprecher selbst Disziplin ab, was oft nicht mal so einfach ist und schon kommt die Software ins Schleudern. Die Hardwarevoraussetzungen (der Computer selbst) sind sehr hoch und auch speziell.

    Leider haben sich aktuelle Erkennungssoftwares für uns/mich in der Baubranche nicht bewährt. Protokolle und Niederschriften einfach reinsprechen und Text ist schon festgeschrieben funtzte in der Praxis leider unbefriedigend. Und so dürfen wir bis heute alles brav eintippen.

    Die Idee ist aber super und daran wird weltweit intensiv und auch seit Jahren schon geforscht. Wenn die Forscher das schaffen, wär das echt ein Hammer und die Einsatzmöglichkeiten enorm.