Digital Eliteboard - Das Digitale Technik Forum

Registriere dich noch heute kostenloses um Mitglied zu werden! Sobald du angemeldet bist, kannst du auf unserer Seite aktiv teilnehmen, indem du deine eigenen Themen und Beiträge erstellst und dich über deinen eigenen Posteingang mit anderen Mitgliedern unterhalten kannst! Zudem bekommst du Zutritt zu Bereiche, welche für Gäste verwehrt bleiben

Hardware & Software Neue Microsoft-Software kann perfekt Stimmen imitieren – mit nur drei Sekunden Sprach-Vorlage

Die Stimme ist eines unserer natürlichsten Erkennungsmerkmale. Eine neue Microsoft-KI kann sie nun in kürzester Zeit nahezu perfekt nachzuahmen lernen. Die Risiken sind auch Microsoft bewusst.

Quelle: stern.de

1673452233097.png

Auch mit geschlossenen Augen oder am Telefon können wir andere Menschen an ihrer Stimme erkennen. Die Gewissheit, die richtige Person zu hören, wird in Zukunft allerdings schwanken. Mit einem neuen Software-Projekt will
Du musst dich Anmelden oder Registrieren um diesen link zusehen!
auch Computer mit der Stimme einer echten Person sprechen lassen. Und dabei nicht nur deren Klang imitieren.

Am Donnerstag kündigte der Konzern das "VALL-E" getaufte Projekt an. Die
Du musst dich Anmelden oder Registrieren um diesen link zusehen!
analysiert eine bestehende Sprachaufnahme einer Person mit Hilfe künstlicher Intelligenz. Gibt man ihr dann einen Textprompt vor, kann sie den im Stile des Sprechers der Original-Aufnahme nachsprechen. Dabei übernimmt sie nicht nur den Klang der Stimme selbst, sondern imitiert auch den Sprachstil und sogar die "akustische Umgebung": Wurde die Aufnahme bei einem Anruf aufgezeichnet, klingt auch die nachgeahmte Version, als käme sie aus dem Telefon. Die wahre Revolution: Es reichen drei Sekunden gesprochener Text, um die Stimme zu imitieren.

Erstaunlich echt​

Das Ergebnis ist beeindruckend - und gleichzeitig erschreckend. Auf der Programm-Webseite gibt der Konzern
Du musst dich Anmelden oder Registrieren um diesen link zusehen!
. Der "Speaker-Prompt" bezeichnet dort das dreisekündige Original. Als "Ground Truth" bezeichnet Microsoft eine Aufnahme, bei der der Original-Sprecher den dann als neuen Text genutzten Satz ebenfalls vorliest. Schließlich gibt es als sogenannte "Baseline" einen Vergleich mit herkömmlicher Vorlesesoftware. Vergleicht man nun die "Ground Truth" mit VALL-Es Aufnahme, ist die Computer-generierte Stimme oft kaum vom Original zu unterscheiden. Lediglich bei der Betonung und dem Klang gibt es ab und zu kleine Hinweise, die die künstliche Stimme etwas unnatürlich klingen lassen. Der Klang und die Art des Sprechens werden aber grundsätzlich immer gut getroffen.

Um diese Präzession zu erreichen, hat Microsoft seine KI mit 60.000 Stunden Audiomaterial von 7000 Sprechern trainiert, es handelt sich um Sprachaufnahmen aus dem Librilight-Datensatz des Facebook-Mutterkonzerns Meta. Der beinhaltet in erster Linie Hörbücher. Auch bei den Sprachbeispielen Microsofts dürften deshalb nicht zufällig ausschließlich um Literatur-Vorlagen handeln: Laut den Entwicklern funktioniert die Sprachsynthese aktuell vor allem dann besonders gut, wenn die genutzten Audio-Aufnahmen Stimmen aus dem genutzten Datensatz entsprechen. Sie liest also bislang Hörbücher am glaubwürdigsten vor. Würde man beliebige Sprechstimmen wählen, wäre das Ergebnis aktuell noch wenig glaubwürdig.

(Noch) kein Grund zur Panik

Als möglichen Nutzen für das Programm nennen die Entwickler vor allem das automatisierte Vorlesen von Texten auf menschlichem Niveau, etwa um Chats in Sprache zu übersetzen. Aber auch eine nachträgliche Überarbeitung gesprochener Aufnahmen um Fehler zu entfernen sei denkbar. Zudem könne man mit Hinzunahme weiterer KI-Modell auch komplett neue Sprachinhalte kreierten.

Doch auch Microsoft ist offenbar sehr bewusst, welches Missbrauchspotenzial in der Technik steckt. "Weil VALL-E bei der Verarbeitung der Stimme die Identität des Sprechers imitieren kann, trägt es ein mögliches Risiko für Missbrauch", erklärt schon die Ankündigung. "Man kann etwa Stimmerkennungs-Programme austricksen oder einen bestimmten Sprecher nachahmen." Um das zu verhindern, arbeite man an der Entwicklung von Software, die KI-generierte Stimmen auch als solche erkennt. Die sicher beste Schutzmaßnahme: VALL-Es Programmcode ist aktuell gar nicht erst für Dritte zugänglich.

Vor deutschsprachigen VALL-E-Fakes muss man sich ohnehin noch nicht fürchten: Bisher spricht die KI ausschließlich Englisch.
 
Zurück
Oben