Für unseren VJing-Einsatz am 23.05.2025 beim Generate25 Festival wollten wir visuell neue Wege gehen. Dabei entschieden wir uns, den Einsatz von KI für die Erstellung unserer Visuals zu testen – genauer gesagt, nutzten wir das Video-KI-Modell Sora von OpenAI. Unser Ziel war es, visuelle Clips zu erzeugen, die sich ästhetisch klar vom Mainstream abheben: rau, kontrastreich, lo-fi.
Erste Versuche – ein rauer Start
Im ersten Schritt versuchten wir, unseren gewünschten Look möglichst offen und flexibel über einen Prompt zu definieren:
„The videos / black & white / very low framerate or image series, random ubahn, city lights, random dancen, Blurry and grainy“
Sora generierte daraufhin zweii Videos. Das erste wirkte zunächst recht vielversprechend und wurde in die erste Auswahl der Clips aufgenommen – später allerdings wieder aussortiert. Das zweite Video zeigte deutliche Schwächen: typisch für KI-Generationen waren hier eigenartige Bewegungsabläufe zu sehen, etwa eine „Person“, die unnatürlich an einem Auto entlanglief, völlig losgelöst von realen Bewegungsmustern.
Anpassung durch Inspo-Upload
Im nächsten Schritt versuchten wir, durch den Upload eines Inspirationsvideos und denselben Prompt bessere Ergebnisse zu erzielen. Auch hier wurden zwei neue Clips erstellt, die jedoch weiterhin stark unter KI-typischen Artefakten litten: Bewegungen wirkten seltsam verzerrt, die Bildkompositionen fehlten an Authentizität.
Um die Richtung zu verändern, passten wir den Prompt an:
„A black and white Video of a night-Life Scene in very low framerate. High contrast, very grainy and shakey with motion blur. You see Teenager dancing thourgh the street.“
Das Ergebnis: Videos, die eher an Kobolde als an tanzende Jugendliche erinnerten. Zusätzlich trat ein Problem bei den Bildformaten auf: Ein weißer und schwarzer Rand machte das Video eher quadratisch (1:1), anstatt das gewünschte 9:16-Format einzuhalten.
weiteren Versuch mit surrealen Motiven:
„A black and white Video of a night-Life Scene in very low framerate. High contrast, very grainy and shakey with motion blur. You see closeup of someone eating a cigarette.“
Selbst nach mehrmaligen Anpassung des Prompts entstand kein zufriedenstellendes Ergebnis. Auffällig war hier, dass trotz „starkem Remix“-Befehl die hochgeladene Inspiration nahezu 1:1 nachgebaut wurde, statt neue kreative Varianten zu schaffen. Auch die erhoffte surreale Stimmuug kam nicht so intensiv rüber wie gewünscht.
“A close-up shot of a person slowly eating a cigarette. The footage is extremely high contrast, very grainy, with intense motion blur and camera shake. Shot in a gritty, lo-fi style reminiscent of vintage handheld film cameras. Harsh lighting flickers subtly as the person chews. The cigarette ash crumbles with every bite. The camera moves erratically, creating a surreal and uncomfortable mood. No sound.”
Richtungswechsel – Fokussierung auf Overlays
Da die Clip-Erstellung mit menschlichen Motiven nicht die gewünschte Qualität brachte, wechselten wir den Ansatz: Wir setzten auf die Erstellung von Overlays für die Visuals.
Inspiration war ein fortlaufender Code, ähnlich wie in typischen Hacker-Szenen. Der Prompt lautete:
„full screen, black background, white random numbers, looks like a code generator, numbers move in waves vom right to left out of the screen, endless flow“
Das Ergebnis: Drei solide Videos, die wir anschließend weiter optimierten. Mit einem angepassten Prompt (“write the code from left to right, like real written code”) schufen wir eine Version, die visuell noch näher an echten Programmcodes wirkte. Diese Overlays funktionierten im finalen VJ-Set hervorragend.
Der Prompt wurde angepasst und dieses Video erstellt, ebenfalls ein Videos, das es in die finale Auswahl schaffte:
„full screen, black background, white random numbers, looks like a code generator, numbers move in waves from right to left out of the screen, endless flow, write the code from left to right, like real written code”
Fazit:
Unser Einsatz von KI-Tools für die Erstellung von VJ-Visuals war eine spannende, aber auch lehrreiche Reise. vor allem wenn komplexe menschliche Bewegungen oder choreografierte Szenen gewünscht sind, gestaltet sich das Ganze noch recht schwierig.
Für Bewegtbilder mit Personen bleibt die KI weiterhin herausfordernd. Besonders auffällig waren dabei eigenartige Bewegungsabläufe und generelle Inkonsistenzen im physischen Verhalten von Figuren. Details wie realistische Tanzbewegungen, natürliche Interaktionen mit der Umgebung oder korrekte Anatomie stellten das Modell vor große Probleme. Auch das Einhalten von spezifischen Bildformaten oder der bewusste künstlerische Einsatz von Unschärfe, Körnung und Kamerawacklern gelang nur begrenzt.
Deutlich besser funktionierte die KI jedoch bei abstrakten oder sich wiederholenden Mustern, wie bei unseren Overlay-Experimenten. Hier konnten wir schnell ästhetisch ansprechende Ergebnisse erzielen, die unsere Shows bereicherten. Besonders angenehm: Die KI konnte hier auf Basis simpler Inputs visuelle Strukturen generieren, die sich in der Live-Performance sehr gut in den Fluss der Musik einfügen ließen.
Zusammengefasst:
- Für reine Clips mit menschlichen Darstellungen ist der Einsatz von KI derzeit eher noch experimentell und fehleranfällig.
- Für Overlays, Loops und abstrakte Visuals bietet KI bereits jetzt ein extrem starkes Toolset, das kreative Prozesse enorm beschleunigen und bereichern kann.
Für das künftige Projekte bleibt der Plan, reales Footage durch KI-Footage zu ersetzten und herauszufinden, wie gut dieses aufgenommen wird. Hier ist der Zugang, dass „Ausgangsmaterial“ aus den bestehenden Videos hochzuladen und KI eine idente Kopie erstellen zu lassen.