Das Text-zu-Video-Diffusionsmodell Lumiere wurde von Forscher:innen von Google Research, dem Weizmann-Institut, der Tel-Aviv-Universität und dem Technion Israel entwickelt. Das Modell zielt darauf ab, realistische, vielfältige und kohärente Bewegungen in Videos zu synthetisieren und hebt sich durch besonders klare und flüssige Ergebnisse von der Konkurrenz ab.
Die ersten Beispielvideos, die von den Entwickler:innen auf einer dedizierten Website hochgeladen wurden, geben einen Einblick in die vielen Nutzungsmöglichkeiten von Lumiere und lassen darauf schließen, dass das Produkt bald für die breite Öffentlichkeit zugänglich gemacht wird. Videos können direkt aus einer Texteingabe generiert werden. Darüber hinaus besteht die Möglichkeit, vorhandene Videos mithilfe von Text-Prompts zu bearbeiten und einzelne Objekte oder Personen auszutauschen. Sogar die Animation statischer Bilder, entweder vollständig oder in Teilen, ist mit Lumiere möglich. Das Hochladen von Bildern oder Videos für eine stilisierte Generierung ist ebenfalls Teil des Funktionsumfangs.
Introducing Lumiere, a space-time diffusion research model for video generation that synthesizes videos portraying realistic, diverse & coherent motion. It was a collaboration between Google Research, @WeizmannScience, @TelAvivUni, & @TechnionLive. More → https://t.co/BHJYEUwAW7 pic.twitter.com/XTsnimT8uc
— Google AI (@GoogleAI) January 26, 2024
Space-Time-U-Net-Diffusionsmodell für realistischere Videos
Lumiere setzt auf das Space-Time-U-Net-Diffusionsmodell (STUNet), um herauszufinden, wo sich Objekte im Raum befinden und wie sie sich gleichzeitig im Laufe der Zeit bewegen. Im Gegensatz zu anderen Text-zu-Video-KIs betrachtet Lumiere ein Video nicht als Ansammlung einzelner Bilder, sondern als Gesamtmedium. Dadurch kann die KI mit nur einem Prozess ein Video erstellen, anstatt einzelne Standbilder zusammenzusetzen. Die Qualität der erzeugten Videos übertrifft laut dem Entwickler:innen-Team andere vergleichbare KI-Modelle.
Aktuell gibt es jedoch noch einige Einschränkungen: Nutzer:innen können nur fünfsekündige Sequenzen erstellen, Szenenwechsel sind nicht möglich, und die maximale Auflösung liegt bei 1024×1024. Google betritt mit Lumiere einen Markt, der bereits von Wettbewerber:innen wie Runway, Stable Video Diffusion und Metas Emu besetzt ist. Runway, eine der ersten Text-zu-Video-Plattformen für den Massenmarkt, hat im Juli 2023 Runway Gen-2 eingeführt und versucht ebenfalls, realistische Videos anzubieten.
Lumiere hebt sich durch die Fokussierung auf Bewegungssynthese und die Anwendung des STUNet-Diffusionsmodells deutlich von der Konkurrenz ab. Die Möglichkeit, Lumiere selbst auszuprobieren, sowie ein offizielles Veröffentlichungsdatum stehen noch aus.
Googles 7 Ziele für 2024:
Fokus auf KI und Unternehmenseffizienz
Powered by WPeMatico