Game-Changer “Deep Learning”

Die automatische Spracherkennung (ASR), auch als “Speech to text”-Technologie bekannt, existiert zwar bereits seit mehreren Jahrzehnten, doch nennenswerte Innovation brachte sie für viele Jahre wenig hervor. Mit dem Aufkommen moderner KI-Ansätze wie “Deep Learning” hat sich das in jüngster Vergangenheit schlagartig geändert. Dank ihnen konnte ASR-Technologie in puncto Genauigkeit und Effizienz stark zulegen, weil sie sowohl Grammatik, Syntax, Struktur als auch Konfiguration von Audio- und Sprachsignalen integrieren, um unsere Sprache besser “verstehen” und verarbeiten zu können. 

 

ASR funktioniert über ein System von Programmen und Algorithmen, die miteinander interagieren – wie etwa Aussprache- und Akustik-Modelle, die gesprochene Sprache “hören” und erkennen, sowie Sprachmodelle, die die wahrscheinlichste Bedeutung ermitteln. Anhand von Hörproben und Transkriptionen lernt das System, komplexere Sprachmuster, Vokabeln und Bedeutungen zu erkennen und zu interpretieren. Dafür muss die ASR auch Unterschiede im Akzent, in der Syntax und in lokalen Ausdrücken berücksichtigen können.

 

 

Dialog-Sprachdaten als Quintessenz

In jeder Branche kann heute KI-Spracherkennung eingesetzt werden, um Abläufe, Interaktionen und Zugang zu vereinfachen. Wichtigste Voraussetzung dafür ist eine kontrollierte Datenerfassung. Wenn man zu viele ähnliche Daten zusammenträgt und damit von einem generalistischen zu einem spezifischen Modell wechselt, kann es etwa zu einem sogenannten “Overfitting” kommen. “Der Algorithmus spezialisiert sich dann auf einzelne Bereiche sehr stark, weshalb er in anderen nicht mehr gut funktioniert. Um dieses Szenario zu vermeiden, passen wir unser System laufend an unsere Kund_innen an”, erklärt Michael Schramm, CTO und Mitgründer von Tucan.ai. 

 

Die Tucan-KI wird vor allem durch Kundendaten trainiert. So lernt sie mit zunehmender Nutzung, relevante Redeflüsse und Sprechweisen immer besser zu verstehen. In der kundenspezifischen Datenerfassung gibt es zwei grundlegende Arten von Datensätzen: Monologe und Dialoge. Wie die Terminologie bereits vermuten lässt, unterscheiden sie sich durch die Anzahl der aufgezeichneten Sprecher_innen.

 

Tucan.ai konzentriert sich auf Gespräche mit mehreren Teilnehmer_innen. “Unsere KI erkennt weit mehr als zwei Sprecher_innen. Positive Ergebnisse konnten wir bisher mit bis zu 24 erzielen”, so Schramm. “Für das bestmögliche Resultat empfehlen wir allerdings zum jetzigen Zeitpunkt maximal 10 Teilnehmer_innen.”

 

Um höchstmögliche Sicherheit gewährleisten zu können, werden Daten ausschließlich anonymisiert und mit einer hauseigenen KI-Engine verarbeitet. Abgelegt werden sie zudem auf eigenen Servern in Frankfurt. Somit verbleiben alle Kundendaten in Deutschland und verlassen die EU keinesfalls.

Nachdem die Daten gesammelt wurden, müssen sie zunächst transkribiert werden. Ein vollständiger Sprachdatensatz enthält nicht nur Audios, sondern auch Transkriptionen, mit deren Hilfe das Modell lernt, Wörter anhand ihres Klangs richtig zu identifizieren. Die Kombination ist der Schlüssel zu einem erfolgreichen Training. 

 

Spracherkennungssysteme zielen im Wesentlichen darauf ab, ähnliche Fehlerraten wie sprechende Menschen zu erreichen. Richard Lippmann schätzte die menschliche Fehlerquote beim Verständnis von Wörtern in einer Studie 1996 auf etwa 4 Prozent. Bisher ist es aber noch keinem Computer gelungen, dieses Ergebnis nachhaltig zu replizieren. 

 

“Unser Ziel ist es, mit Spracherkennung professionelle Kommunikation aller Art zu optimieren. Diese nimmt aber in der Praxis unterschiedlichste Gestalten an”, führt Michael weiter aus: “Man muss sich daher Schritt für Schritt an das Nutzerverhalten herantasten und das KI-Modell auf spezielle Bedürfnisse hintrainieren.” Aufgrund dieses Ansatzes erzielt Tucan.ai bei deutschen Dialekten und Akzenten bereits eine rekordverdächtige Trefferquote von über 90 und bis zu 96 Prozent. 

 

 

Mit Sentiment-Analyse zur “Smart Summary”

Während die KI das wörtliche Protokollieren schon sehr gut beherrscht, tut sie sich bei inhaltlichen Zusammenfassungen oder Ergebnisprotokollen noch recht schwer. Aktuell liegt der Fokus auf automatischen Inhaltsanalysen, durch die Textflüsse in Team-Meetings, Verkaufs- und Kundengesprächen sowie Interviews aller Art erkannt werden, um ehestmöglich neben der Transkription auch eine marktreife Lösung für automatische Ergebnisprotokolle präsentieren zu können.

 

Besonderes Augenmerk legt das Tucan.ai-Entwicklungsteam dabei auf das Erkennen von Fragen sowie Gesprächsinhalten, die von möglichen Antworten auf diese handeln. So arbeitet etwa das Machine-Learning-Department intensiv daran, das Modell in seiner Unterscheidungsfähigkeit hinsichtlich verschiedener Entitäten inklusive ihrer Typen – wie z.B. bestimmter Tage, Personen und Orte – zu verbessern. Darauf aufbauend sollen in einem nächsten Schritt Sentiment-Analysen in das KI-Training aufgenommen werden – mit dem Ziel, mehr (automatische) Einblicke in die emotionalen Aspekte von Meetings, Interviews und anderen Gesprächen zu ermöglichen. Also… stay tuned! Es zahlt sich aus.

Sign up for Team Tucan's newsletter,

and always stay updated on the latest developments regarding AI solutions and new work approaches.