Das KI-Tool Emo kombiniert Porträts mit Audiodateien, um die darauf abgebildeten Personen in Videos singen oder sprechen zu lassen
Quelle: 1. März 2024,
Nachdem das Jahr 2023 vor allem durch das Generieren von Texten und Bildern über künstliche Intelligenz geprägt war, dürfte das Jahr 2024 im Zeichen der KI-generierten Videos stehen. So hatte OpenAI, das Unternehmen hinter dem beliebten KI-Chatbot ChatGPT, mit Sora ein System gezeigt, das realistisch wirkende Videos auf Basis von Textbefehlen (Prompts) erstellen soll. Nun legt der chinesische Konzern Alibaba nach und präsentiert ein Tool, das Videos auf Basis von Porträts und Audiodateien generiert.
Das Tool trägt den Namen Emo (Emote Portrait Alive). Kommerziell verfügbar ist es noch nicht, allerdings haben die Forschenden von Alibaba erste Demovideos auf Github veröffentlicht, Details zur Funktionsweise werden in einem Paper erläutert. Emo ermöglicht es, ein Porträtbild zu einem Video zu animieren, indem dieses mit einer Audiodatei kombiniert wird. So entsteht der Eindruck, die abgebildete Person würde sprechen oder singen.
Einem Artikel von "Venture Beat" zufolge stellt Emo einen großen Fortschritt im Bereich der Videos von sprechenden Personen dar. Anders als bei konkurrierenden Modellen wird hier auf 3D-Modelle als Zwischenschritt verzichtet, stattdessen wird die Wellenform der Audiodateien direkt genutzt, um Lippenbewegungen und andere Formen der Mimik zu imitieren. Trainiert wurde das Modell von Emo mit 250 Stunden an Videomaterial von Menschen, die Reden halten, singen sowie in Filmen und Fernsehsendungen auftreten.
Für ihr Paper haben die Forschenden auch eine Nutzerumfrage durchgeführt, laut der die mit Emo erstellten Videos realistischer wirken als jene von bisherigen Modellen. Den Experimenten zufolge soll neben Sprechen auch Singen äußerst realistisch dargestellt werden können. Die Länge der Videos soll sich nach der Dauer des Audioausgangsmaterials richten.
Die Forschenden deuten an, dass man mit Modellen wie diesem künftig personalisierte Videoinhalte auf Basis von eigenen Fotos und Audioaufnahmen erstellen kann. Gleichzeitig werden erneut Bedenken wegen des hohen Missbrauchspotenzials geäußert, indem etwa diffamierende Inhalte von Menschen erstellt oder Fake News verbreitet werden. (stm, 1.3.2024)
Quelle: 1. März 2024,
Du musst Regestriert sein, um das angehängte Bild zusehen.
Nachdem das Jahr 2023 vor allem durch das Generieren von Texten und Bildern über künstliche Intelligenz geprägt war, dürfte das Jahr 2024 im Zeichen der KI-generierten Videos stehen. So hatte OpenAI, das Unternehmen hinter dem beliebten KI-Chatbot ChatGPT, mit Sora ein System gezeigt, das realistisch wirkende Videos auf Basis von Textbefehlen (Prompts) erstellen soll. Nun legt der chinesische Konzern Alibaba nach und präsentiert ein Tool, das Videos auf Basis von Porträts und Audiodateien generiert.
Das Tool trägt den Namen Emo (Emote Portrait Alive). Kommerziell verfügbar ist es noch nicht, allerdings haben die Forschenden von Alibaba erste Demovideos auf Github veröffentlicht, Details zur Funktionsweise werden in einem Paper erläutert. Emo ermöglicht es, ein Porträtbild zu einem Video zu animieren, indem dieses mit einer Audiodatei kombiniert wird. So entsteht der Eindruck, die abgebildete Person würde sprechen oder singen.
Du musst angemeldet sein, um Medien zu sehen.
Einem Artikel von "Venture Beat" zufolge stellt Emo einen großen Fortschritt im Bereich der Videos von sprechenden Personen dar. Anders als bei konkurrierenden Modellen wird hier auf 3D-Modelle als Zwischenschritt verzichtet, stattdessen wird die Wellenform der Audiodateien direkt genutzt, um Lippenbewegungen und andere Formen der Mimik zu imitieren. Trainiert wurde das Modell von Emo mit 250 Stunden an Videomaterial von Menschen, die Reden halten, singen sowie in Filmen und Fernsehsendungen auftreten.
Für ihr Paper haben die Forschenden auch eine Nutzerumfrage durchgeführt, laut der die mit Emo erstellten Videos realistischer wirken als jene von bisherigen Modellen. Den Experimenten zufolge soll neben Sprechen auch Singen äußerst realistisch dargestellt werden können. Die Länge der Videos soll sich nach der Dauer des Audioausgangsmaterials richten.
Die Forschenden deuten an, dass man mit Modellen wie diesem künftig personalisierte Videoinhalte auf Basis von eigenen Fotos und Audioaufnahmen erstellen kann. Gleichzeitig werden erneut Bedenken wegen des hohen Missbrauchspotenzials geäußert, indem etwa diffamierende Inhalte von Menschen erstellt oder Fake News verbreitet werden. (stm, 1.3.2024)