Du sagst etwas, was Du nie gesagt hast – KI als Gefahr oder Segen?

Stell Dir vor, es wäre Krieg und keiner ginge hin!

Ach nee, das war ja etwas anderes. Also nochmal von vorne:

Stell Dir vor, Du sagst etwas, was Du aber nie gesagt hast?

Ich habe weder den Aluhut aufgesetzt, noch mir ein Gläschen Wein gegönnt. Ich bin lediglich über ein interessantes Projekt von Bertelsmann in Zusammenarbeit mit Microsoft gestoßen.

Was genau ist nun aber passiert?

RTL und Microsoft haben sich für ein Projekt zusammengefunden. Hier geht es darum die Stimme einer real existierenden Person per KI (Künstlicher Intelligenz) zu analysieren und aufzuarbeiten. Das Ergebnis soll sein, dass diese künstliche Stimme von der originalen nicht mehr zu unterscheiden ist. Auf diesem Wege kann man eine x- beliebige Person etwas sagen lassen, was sie niemals geäußert hat.

Ist das alles nur zukunftsgeschwafel? Mit Nichten, es ist bereits jetzt Realität!

Als Testpersonen hat RTL Maik Meuser und Inken Wriedt herangezogen und Microsoft hat mit deren Einverständnis eine KI gefüttert.

Laut Pressebericht von RTL wurden für die Stimmengenerierung lediglich vier Stunden Audiomaterial der Probanden benötigt:

„Aus vier Stunden gesprochenem Text sind im Rahmen des Projekts lebensechte, natürlich klingende Versionen der Stimmen entstanden, die vom menschlichen Original nicht mehr zu unterscheiden sind.“

Schaut man sich weiterhin das in der Presseerklärung verlinkte Video an, dann kommen Sachen zum Vorschein, die man lieber nicht gehört hätte. Ab Minute 2 wird erklärt, woher die Sprechproben gekommen sind.

Während Inken Wriedt extra Text eingesprochen hat, sah es bei Maik Meuser schon ganz anders aus.

Ihn betreffend wird gesagt:

„Von Mike haben wir auf bereits existierende Moderationen von RTL aktuell zurückgegriffen.“

Im Klartext heißt dies nun, dass Microsoft eine Möglichkeit entwickelt hat mit nur vier Stunden Audiomaterial Menschen Worte in den Mund zu legen, die nie gesagt wurden.

Gerade bei Podcastern sollte dieses Audiomaterial schnell und ausreichend zu finden sein.

Hoch und heilig verspricht Microsoft, dass man diese Möglichkeit nie für illegale Zwecke nutzen werde und, dass jegliche künstlich generierten Beiträge immer gekennzeichnet werden aber wir wissen ja mittlerweile auch, dass niemand die Absicht hatte eine Mauer zu errichten.

Übrigens: die im RTL Artikel verlinkten Richtlinien von Microsoft für den verantwortungsvollen Umgang mit künstlicher Intelligenz führen lediglich zu einer Werbe Infoseite von Microsoft. Richtlinien kann man da zwar hineininterpretieren, muss man aber nicht.

Beworben wird das Projekt unter dem Deckmandel der Barrierefreiheit wobei ich bisher noch nirgendwo herauslesen konnte, was hierbei eine synthetische Stimme anders oder besser machen soll, als eine natürliche.

So weit zu den negativen Punkten, die dieses System mit sich bringt. Jetzt mache ich gedanklich eine 180 Grad wende und gehe das Ganze mal unvoreingenommen positiv an.

Natürlich kann man mit einer solchen Technik im Bereich der Barrierefreiheit sehr viel Gutes tun. Mit dieser Form von KI könnte man stumme und spracheingeschränkten Menschen mit einem Schlag „eine Stimme“ geben. Natürlich bliebe dann das persönliche, was in jeder einzelnen Stimme liegt, auf der Strecke aber vielleicht gibt es ja auch hierfür in Zukunft eine technische Möglichkeit da etwas zu gestalten.

 

Zusammenfassend wiegen für mich die Nachteile schwerer, als die Vorteile. Neue Technik ist interessant und meist gut allerdings ist auch immer dort Schatten, wo Licht ist.

Wie schnell kann man dieses Verfahren ausnutzen und jeder halbwegs intelligente Mensch sollte wissen, dass genau dies geschieht, wenn es nur irgendwie machbar ist.

Microsoft kann sich an den Codex halten, dass alle künstlichen Beiträge markiert werden, das will ich nicht in Abrede stellen aber die, die das System illegal nutzen werden es nicht.

Somit öffnet sich Pandoras Büchse wieder etwas mehr und ab einem gewissen Punkt wird auch hier nichts mehr aufzuhalten sein.

Kleiner Gedankenanstoß zum Schluss:

Vor einigen Jahren hätte der Großteil der Menschheit sie nie vorstellen können, dass es Video Deep Fakes gibt. Ende Juni 2022 hat jedoch „Vitali Klitschko“ mit mehreren Politikern in Europa gesprochen.



Quellen:

DJV verurteilt RTL-Pläne für synthetische Nachrichtenstimmen
Synthetische Stimmen ermöglichen nutzerzentrierte Angebote
Richtlinien von Microsoft für den verantwortungsvollen Umgang mit künstlicher Intelligenz

Beitragsbild:
Designed by macrovector / Freepik

Avatar-Foto

CTHTC

Erdbeerjäger und Cola Fan

Alle Beiträge ansehen von CTHTC →