Digital Eliteboard - Das Digitale Technik Forum

Registriere dich noch heute kostenloses um Mitglied zu werden! Sobald du angemeldet bist, kannst du auf unserer Seite aktiv teilnehmen, indem du deine eigenen Themen und Beiträge erstellst und dich über deinen eigenen Posteingang mit anderen Mitgliedern unterhalten kannst! Zudem bekommst du Zutritt zu Bereiche, welche für Gäste verwehrt bleiben

PC & Internet Neues KI-Videotool von Alibaba lässt Bilder lebendig werden

Das KI-Tool Emo kombiniert Porträts mit Audiodateien, um die darauf abgebildeten Personen in Videos singen oder sprechen zu lassen

Quelle: 1. März 2024,

1712820100594.png

Nachdem das Jahr 2023 vor allem durch das Generieren von Texten und Bildern über künstliche Intelligenz geprägt war, dürfte das Jahr 2024 im Zeichen der KI-generierten Videos stehen. So hatte OpenAI, das Unternehmen hinter dem beliebten KI-Chatbot ChatGPT, mit
Du musst dich Anmelden oder Registrieren um diesen link zusehen!
ein System gezeigt, das realistisch wirkende Videos auf Basis von Textbefehlen (Prompts) erstellen soll. Nun legt der chinesische Konzern Alibaba nach und präsentiert ein Tool, das Videos auf Basis von Porträts und Audiodateien generiert.

Das Tool trägt den Namen Emo (Emote Portrait Alive). Kommerziell verfügbar ist es noch nicht, allerdings haben die Forschenden von Alibaba erste Demovideos auf
Du musst dich Anmelden oder Registrieren um diesen link zusehen!
veröffentlicht, Details zur Funktionsweise werden in einem
Du musst dich Anmelden oder Registrieren um diesen link zusehen!
erläutert. Emo ermöglicht es, ein Porträtbild zu einem Video zu animieren, indem dieses mit einer Audiodatei kombiniert wird. So entsteht der Eindruck, die abgebildete Person würde sprechen oder singen.


Einem Artikel von "
Du musst dich Anmelden oder Registrieren um diesen link zusehen!
" zufolge stellt Emo einen großen Fortschritt im Bereich der Videos von sprechenden Personen dar. Anders als bei konkurrierenden Modellen wird hier auf 3D-Modelle als Zwischenschritt verzichtet, stattdessen wird die Wellenform der Audiodateien direkt genutzt, um Lippenbewegungen und andere Formen der Mimik zu imitieren. Trainiert wurde das Modell von Emo mit 250 Stunden an Videomaterial von Menschen, die Reden halten, singen sowie in Filmen und Fernsehsendungen auftreten.

Für ihr Paper haben die Forschenden auch eine Nutzerumfrage durchgeführt, laut der die mit Emo erstellten Videos realistischer wirken als jene von bisherigen Modellen. Den Experimenten zufolge soll neben Sprechen auch Singen äußerst realistisch dargestellt werden können. Die Länge der Videos soll sich nach der Dauer des Audioausgangsmaterials richten.

Die Forschenden deuten an, dass man mit Modellen wie diesem künftig personalisierte Videoinhalte auf Basis von eigenen Fotos und Audioaufnahmen erstellen kann. Gleichzeitig werden erneut Bedenken wegen des hohen Missbrauchspotenzials geäußert, indem etwa diffamierende Inhalte von Menschen erstellt oder Fake News verbreitet werden. (stm, 1.3.2024)
 
Zurück
Oben