KI – Fluch oder Segen? Das ist hier die Frage!
Ich bin schon ein technisch versierter Mensch und betrachte mich selbst durchaus als early adopter aber irgendwo gibt es auch Sachen, denen ich sehr skeptisch entgegensehe.
Die technische Entwicklung lässt sich nicht aufhalten und das Thema KI (künstliche Intelligenz) ist derzeit in aller Munde.
Bereits im Oktober 2022 habe ich im Artikel „Du sagst etwas, was Du nie gesagt hast – KI als Gefahr oder Segen?“ meine Bedenken bezüglich dieser Thematik geäußert.
Microsoft setzt jetzt noch einen oben drauf und hat mit VALL-E eine KI vorgestellt, die die Text-zu-Sprache-Synthese (TTS) auf ein neues Niveau anhebt.
Neu ist nicht, dass Text automatisiert in Sprache umgewandelt wird sondern, dass Sprachmuster und Sprachstil einer realen Person nachempfunden werden können.
VALL-E benötigt dafür eine originale Sprachsequenz von lediglich 3 Sekunden.
Im Originalartikel heißt es dazu:
„In der Pre-Trainingsphase skalieren wir die TTS-Trainingsdaten auf 60.000 Stunden englischer Sprache, was Hunderte Male mehr ist als bei bestehenden Systemen. VALL-E verfügt über kontextbezogene Lernfähigkeiten und kann mit nur einer 3-Sekunden-Aufnahme eines unbekannten Sprechers als akustische Eingabeaufforderung hochwertige personalisierte Sprache synthetisieren. Experimentelle Ergebnisse zeigen, dass VALL-E das State-of-the-Art Zero-Shot TTS-System in Bezug auf die Natürlichkeit der Sprache und die Ähnlichkeit der Sprecher deutlich übertrifft. Darüber hinaus zeigt sich, dass VALL-E die Emotionen des Sprechers und die akustische Umgebung des akustischen Prompts in der Synthese bewahren kann.“
Mit dieser Aussicht heißt es also nun: zurücklehnen, ein paar Texte tippen und dann per VALL-E eine Podcastepisode für Dich generieren lassen.
Naja, ganz so weit ist es noch nicht, da diese Funktion momentan der Allgemeinheit noch nicht zur Verfügung steht aber was nicht ist, kann ja noch werden.
Der Originalartikel inclusive einiger Sprachbeispiele ist hier zu finden:
VALL-E Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers
Quelle: VALL-E Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers
Beitragsbild: Designed by macrovector / Freepik