Base TTS soll das größte bisher existente Sprachmodell sein und wurde mit über 100.000 Stunden Sprachdaten trainiert.
Fast jeder kennt elektronische Ansagen. Ganz egal ob in der Straßenbahn, am Anrufbeantworter oder in der automatischen Textausgabe auf Webseiten. Für gewöhnlich sind diese Stimmen für Unternehmen eine kostengünstige Möglichkeit, Audiodaten bereitzustellen. Doch da sie mitnichten an echte menschliche Stimmen herankommen, sind die Einsatzgebiete begrenzt. Ein Forschungsteam von Amazons Wissenschaftsabteilung Amazon Science stellte jetzt ein neues Modell vor, welches menschliche Emotionen wiedergeben können soll, wie kein anderes zuvor.
Der komplexe Klang der menschlichen Sprache
Die bisherigen Text-zu-Sprache-Modelle waren oft eher simpel gestrickte Audioausgaben. Unregelmäßige Aussprachen oder gar Intonation, welche oft eine bestimmte Bedeutung mit sich bringt, konnten praktisch nicht dargestellt werden. Das liegt laut den Amazon-Forschenden vor allem an ihrer mangelnden Komplexität. Das Base-TTS-Modell trainierte mit 100.000 Stunden menschlicher Sprachaufnahmen aus der Public Domain. Hinzu kommen fast 1 Milliarde (konkret 980 Millionen) spezifische Parameter, welche beispielsweise Regeln zur Aussprache und Betonung definieren.
Im Rahmen der Forschungsarbeit wurden dabei auch verschiedene Abstufungen erprobt: Anhand von Beispielsätzen wurde dabei auch ein kleineres Modell des Base TTS (1.000 Stunden Sprachaufnahmen und 150 Millionen Parameter) sowie ein mittleres Modell (10.000 Stunden und 400 Millionen Parameter) getestet.
Die Forschenden konnten dabei beobachten, dass die Menge an Trainingsdaten einen enormen Einfluss auf die Prosodie der Sprachausgabe hat. Unter Prosodie versteht man in der Linguistik die Gesamtheit der lautlichen Eigenschaften der Sprache. Also alles, was der Sprache einen natürlichen Klang verleiht, wie beispielsweise Rhythmus, Intonation, Tonhöhen, Aussprache und weitere Faktoren.
Das steckt hinter Base TTS
Das unter der Leitung von Mateusz Łajszczak und Guillermo Cámbara entwickelte Modell belegt unmissverständlich, dass Sprachmodelle vergleichbar mit künstlichen Intelligenzen eine Fähigkeit zur Weiterentwicklung besitzen. Diese Fähigkeit spiegelt auch der Name wider. Wider Erwarten steht Base TTS nämlich nicht für ein Basismodell, sondern ist vielmehr eine Abkürzung für Big Adaptive Streamable Text-to-Speech-Modell. Zu Deutsch: Großes, lernfähiges, abrufbares Sprachmodell.
Unter dem Unternehmenszweig Amazon Science führen Forschende im Auftrag des Konzerns Arbeiten in den Bereichen künstliche Intelligenz, Robotik, Quantencomputing, aber auch in Sachen Nachhaltigkeit durch. Einzelne Projekte finden sich dabei rund um die Welt – in Deutschland befinden sich Campusse in Berlin, Aachen sowie Tübingen.
Artikelbild: http://www.depositphotos.com
Kommentar schreiben