KI trifft Realität // Video-Experiment mit Sora und Hailou

In meinem Video-Projekt habe ich mich auf das spannende Experiment eingelassen, Künstliche Intelligenz und echte Aufnahmen miteinander zu kombinieren. Konkret habe ich diesmal eine Mischung aus KI-generiertem Footage und realem Drohnenmaterial kombiniert. Ziel war es herauszufinden, wie gut diese beiden Welten inzwischen miteinander verschmelzen können und wie sehr sie sich visuell und atmosphärisch noch voneinander unterscheiden.

Im Gegensatz zu meinen früheren Projekten (Blogpost 5), bei denen ich mit Bild-zu-Video-Tools gearbeitet habe, kam diesmal eine reine „Text zu Video“-Herangehensweise zum Einsatz. Verwendet habe ich dabei die KI-Tools Sora und Hailou.

Der Ansatz: KI-Text zu Video trifft echte Drohne

Die Idee war simpel, die Umsetzung jedoch – wie so oft – alles andere als einfach: Ich wollte ein Video erschaffen, das nahtlos zwischen echten Drohnenaufnahmen und KI-generierten Sequenzen wechselt. Dabei war es mir wichtig, das KI-Footage nicht als bloßes Füllmaterial zu verwenden, sondern bewusst Szenen zu kreieren, die thematisch und optisch zur echten Drohnenaufnahme passen.

Während ich beim letzten Mal noch auf eine Kombination aus Bildern und Prompts gesetzt habe, um die KI-Footage zu erzeugen, bestand die Herausforderung diesmal darin, ausschließlich mit Text-Prompts zu arbeiten. Das bedeutet, dass ich der KI sehr präzise Beschreibungen liefern musste, um die gewünschten Szenen zu erzeugen – ein Aspekt, der sich im Prozess als eine der größten Hürden herausstellen sollte.

Der steinige Weg zum finalen Video

Wie bei vielen KI-Projekten war auch hier der Weg zum finalen Ergebnis gepflastert mit unzähligen Fehlversuchen, Frustrationen und überraschenden Erkenntnissen. Die wohl größte Herausforderung lag darin, die richtige Balance zwischen Präzision und Offenheit in den Prompts zu finden.

Ein zu vager Prompt führte oft zu unbrauchbaren Ergebnissen, die nichts mit meiner Vorstellung zu tun hatten. Umgekehrt lieferte ein zu detaillierter Prompt zwar manchmal visuell beeindruckende Resultate, allerdings wirkte das Video dann oft künstlich und zu „glatt“, sodass es nicht mehr zum realen Drohnenmaterial passte.

Wo KI an ihre Grenzen stößt

Trotz der enormen Fortschritte in der KI-Videoerstellung bleiben gewisse Grenzen unübersehbar – gerade, wenn man echtes Footage danebenstellt. Besonders problematisch war in meinem Projekt der Bewegungsfluss:
Echte Drohnenaufnahmen haben eine organische, gleichmäßige Kameraführung, während KI-generierte Videos häufig zu ruckartigen oder „unrealistisch glatten“ Bewegungen tendieren.

Auch die Beleuchtung stellte sich als große Herausforderung heraus. Während Drohnenaufnahmen mit natürlichem Licht spielen, wirken KI-Videos oft „zu perfekt“ ausgeleuchtet oder haben unrealistische Lichtreflexe. Diese Unterschiede sorgen gerade beim direkten Schnitt zwischen den beiden Quellen für Brüche, die nur schwer zu kaschieren sind.

Hier die Best of Fails

KI-Video: Kunst, Experiment oder Täuschung?

Was mich an diesem Projekt besonders fasziniert hat: Die Übergänge zwischen KI und Realität sind mittlerweile stellenweise so subtil, dass selbst ich im Schnitt manchmal noch zweimal hinschauen musste. Dennoch bleibt ein kritischer Blick wichtig – und genau hier möchte ich im nächsten Schritt anknüpfen.

Geplant ist eine Umfrage, in der ich meinen Zuschauer:innen einzelne das Video zeige und sie raten lasse: „Ist das KI oder echt?“ Ziel dabei ist es, herauszufinden, wie gut Menschen solche Mischungen inzwischen erkennen können und gleichzeitig ein Bewusstsein für den Einfluss von KI auf Bewegtbild zu schaffen.

Fazit

Das Experiment hat mir erneut gezeigt, wie mächtig und faszinierend KI-Tools heute bereits sind aber auch, wie viel Feingefühl und Geduld notwendig sind, um wirklich überzeugende Ergebnisse zu erzielen. Ich habe unzählige Fehlversuche produziert, bevor ich am Ende ein Video in den Händen hielt, das ich guten Gewissens für dieses Projekt verwenden kann.  Der spannendste Teil kommt allerdings jetzt: Die Reaktionen meiner Zuschauer:innen. Mehr dazu im nächsten Blogpost!

HIER DAS FINALE PROJEKT!

Wie echt ist echt? Umfrage zur Wirkung vom Projekt mit KI-generierten Drohnenaufnahmen

Das Projekt dieses Design & Research Blogs bestand aus einem kurzen Video, das sowohl KI-generierte Clips als auch reales Drohnen-Footage kombiniert. Ziel war es, herauszufinden, ob Zuschauer*innen KI-Bilder als solche erkennen und wie sie auf diese Mischung reagieren.

Um diese Fragen zu untersuchen, wurde eine Umfrage mit 13 Teilnehmer*innen durchgeführt. Alle Befragten bekamen das Video vorab zugesendet und beantworteten im Anschluss 25 kurze, gezielte Fragen zu ihrer Wahrnehmung, Einschätzung und emotionalen Reaktion.

Die Ergebnisse dieser Erhebung liefern spannende Einblicke in die Wirkung von KI-Footage und die Grenzen der visuellen Glaubwürdigkeit und werden im Folgenden detailliert analysiert.

Wie ansprechend fanden Sie das Video insgesamt?

Die Bewertungen lagen überwiegend bei 4 von 5 Punkten, was auf eine insgesamt positive visuelle und gestalterische Wahrnehmung hindeutet. Nur wenige Bewertungen lagen darunter – zwei Personen gaben eine 2 oder 3. Das zeigt: Die Machart und Ästhetik des Videos kamen bei den meisten gut an, unabhängig vom Ursprung des Materials.

 Wie glaubwürdig wirkte das gezeigte Material auf Sie?

Hier zeigen sich leicht unterschiedliche Einschätzungen, von 2 bis 5 Punkten war alles dabei. Der Durchschnitt liegt zwischen 3 und 4. Das deutet darauf hin, dass viele Szenen glaubwürdig wirkten, bei einigen jedoch Zweifel aufkamen, etwa durch visuelle Unstimmigkeiten oder die Atmosphäre einzelner Shots.

Ist Ihnen aufgefallen, dass in dem Video KI-generierte Aufnahmen verwendet wurden?

Mehrere Personen gaben an, die KI-Aufnahmen erkannt zu haben, andere waren unsicher oder bemerkten erst beim zweiten Hinschauen Unterschiede. Das zeigt: Ohne expliziten Hinweis bleibt KI-Footage häufig unbemerkt, ein Beweis für seine visuelle Qualität. Interessant ist auch, dass einige Teilnehmende erst durch die Umfrage selbst auf die Idee kamen, genauer hinzusehen.

Aufschlüsselung der einzelnen Clips und das Ergebnis:

Bild 1: KI

Bild 2: ECHT

Bild 3: KI

Bild 4: ECHT

Bild 5: ECHT

Bild 6: KI

Bild 7: ECHT

Bild 8: KI

Bild 9: KI

Bild 10: KI

Bild 12: ECHT

Bild 13: ECHT

Bild 14: KI

Bild 15: KI

Bild 16: KI

Bild 17: KI

Wie sicher sind Sie sich bei Ihrer Einschätzung?

Die Selbsteinschätzung reichte von sehr unsicher (1–2) bis mittel (3–4). Nur eine Person gab an, sich sehr sicher zu fühlen (5). Dies verdeutlicht die Herausforderung: Auch wenn etwas „künstlich“ erscheint, ist es schwer, klare Beweise zu erkennen, ein typisches Merkmal von gutem KI-Content.

Was hat Sie vermuten lassen, dass es sich um KI-generiertes Material handelt?

Mehrfach genannt wurden:

  • Ungewöhnliche Farben oder Texturen
  • „Zu perfekte“ Szenen
  • Unnatürliche Bewegungen
  • Fehlende Details oder logische Fehler (z. B. Wege, die im Nichts enden)

Diese Beobachtungen spiegeln typische Schwächen aktueller KI-Generierung wider und zeigen, worauf geschulte Zuschauer achten.

Weitere Anmerkungen

Viele Kommentare spiegelten eine Erstauntheit über die Qualität des Videos wider, wie zum Beispiel: „Ich dachte erst, das ist einfach gut gefilmt.“
Einige merkten an, dass die Erkennbarkeit stark vom Bildschirmtyp und der Auflösung abhängig sei.
Andere gaben zu, dass der Kontext (Fragen, Hinweise) erst das kritische Sehen ausgelöst hat – ein Zeichen dafür, wie stark Wahrnehmung durch Erwartung beeinflusst wird.

“Es geht für mich gefühlt weniger darum dass ich szene zu szene genau sagen kann was KI ist und mehr darum dass ich ab der Weizenszene sehr sicher war dass mindestens eine KI generierte Szene drinnen war. Ab dann war ich bei jeder Szene skeptisch

Wie bewerten Sie den Einsatz von KI-Footage in diesem Video?

Die Mehrheit bewertete den Einsatz als positiv oder neutral. Nur eine Person äußerte sich klar negativ. Das spricht dafür, dass KI-Footage, sofern gut integriert, als stilistisches Mittel akzeptiert wird. Einige sehen darin sogar eine kreative Bereicherung.

Finden Sie die Kombination aus echtem und KI-generiertem Material störend?

Die meisten Antworten lagen bei 3 oder 4 (neutral bis nicht störend). Nur eine Person empfand die Mischung als deutlich störend (Wert 5). Insgesamt wird die Kombination als gelungen oder zumindest unproblematisch wahrgenommen.

KI Stimmen im Dokumentarfilm und in der Trailer Erstellung

In meiner täglichen Arbeit als Editorin im Bereich Dokumentarfilm ist man immer mit neuen Technologien konfrontiert, die unseren Workflow verändern – oder zumindest zum Überdenken anregen. Eine dieser Entwicklungen ist der Einsatz von KI-generierten Stimmen. Besonders bei redaktionellen Abnahmen und in der Trailer-Erstellung wurde in unserem Team zuletzt mit KI-Stimmen experimentiert, um die Vorstellungskraft bei unfertigen Filmfassungen zu verbessern.

In diesem Beitrag möchte ich einen praktischen Einblick geben, wie wir die Stimmen von ElevenLabs getestet haben und welche Probleme dabei aufgetaucht sind.

Anwendungsfall: Redaktionelle Abnahme mit KI-Stimme

Der klassische Ablauf bei uns sieht so aus: Der Roughcut eines Dokumentarfilms wird zusammen mit dem Sprechertext als Word-Datei an die Redaktion übermittelt. Diese prüft den Text, macht redaktionelle Änderungen und gibt Feedback. Danach gibt es den Picture Lock und daraufhin starten die Sprachaufnahmen im Tonstudio mit Sprecher:in, Regie und Tonmeister.

Um diesen Prozess zu unterstützen, kam die Idee auf, den Sprechertext nicht nur schriftlich zu liefern, sondern ihn über eine KI-Stimme einzusprechen und direkt in den Roughcut zu integrieren. Die Hoffnung war, der Redaktion so einen besseren Eindruck vom Timing, der Emotionalität und der Wirkung des Films zu vermitteln.

Technisch umgesetzt haben wir das mit ElevenLabs, einem Anbieter für KI-Stimmen, der besonders für seine natürlich klingende Sprachsynthese bekannt ist.

Erste Eindrücke aus der Praxis

Die Idee klang im ersten Moment vielversprechend – doch die Realität sah etwas anders aus.

Die Redaktion reagierte eher irritiert als begeistert. Die Gründe waren vielfältig:

  • Die Passagen waren oft zu lang oder zu kurz, weil die synthetische Stimme nicht wie ein Mensch pausiert oder moduliert. Das Timing passte also nicht zur Bildmontage.
  • Die Tonalität wirkte oft unpassend. Besonders bei emotionalen oder sensiblen Inhalten kam die synthetische Stimme zu neutral, zu technisch oder sogar ungewollt distanziert rüber.
  • Die KI-Stimme wurde fälschlich für einen Entwurf der Finalfassung gehalten, was Missverständnisse in der Kommunikation verursachte.

Fazit: Die Redaktion bat letztlich darum, wieder ausschließlich mit Word-Dokumenten zu arbeiten. Die gewünschte Verbesserung des Abnahmeprozesses blieb aus – zumindest in diesem Setting.

Bekannte Probleme beim Einsatz von ElevenLabs-Stimmen

Trotz der beeindruckenden Technologie gibt es einige klare Limitationen und Probleme, auf die man beim Einsatz von ElevenLabs achten sollte:

Unnatürliche Intonation und Betonung

  • KI-Stimmen setzen Betonungen oft an unerwarteten Stellen.
  • Komplexe Satzstrukturen, Fremdwörter oder Namen führen häufig zu fehlerhaften Aussprachen.
  • Pausen wirken technisch und nicht organisch – insbesondere bei emotional geladenen Passagen.

Tonalität schwer steuerbar

  • ElevenLabs bietet zwar verschiedene Emotionsprofile, doch deren Wirkung ist begrenzt und nicht konsistent.
  • Der Übergang zwischen ruhigen und aufgeregten Passagen klingt oft künstlich oder sogar verstörend.
  • Die Nuancen der menschlichen Stimme – Ironie, Zweifel, Wärme – lassen sich (noch) nicht ausreichend simulieren.
  • Bei längeren Texten treten hörbare Unterschiede auf wenn Passagen neu generiert werden müssen (z. B. plötzliche Stimmsprünge, veränderte Tonhöhe).

Fazit

Die Idee, KI-Stimmen in der redaktionellen Abnahme oder für Trailer-Entwürfe zu nutzen, ist technisch möglich – aber in der Praxis aktuell noch nicht ausgereift genug für den redaktionellen Alltag im Dokumentarfilm.

Insbesondere im öffentlich-rechtlichen oder journalistischen Kontext, wo Authentizität, Glaubwürdigkeit und emotionale Präzision zählen, stößt die Technologie (noch) an Grenzen.

Trotzdem: Die Potenziale sind da. Für interne Testfassungen, Vorvisualisierungen oder das kreative Experimentieren können Tools wie ElevenLabs durchaus hilfreich sein – solange man ihre Limitationen kennt und bewusst einsetzt.

Erstellung englischsprachiger Trailerfassungen 

Ein weiterer spannender Anwendungsbereich für KI-Stimmen hat sich bei uns in der Erstellung englischsprachiger Trailerfassungen ergeben. Während die deutsche Version wie gewohnt professionell eingesprochen wurde, testeten wir für die englische Adaption den Einsatz von KI-generierten Stimmen – wieder mit ElevenLabs als Tool der Wahl.


Gerade bei internationalen Vertriebsfassungen oder Festivalpräsentationen muss es oft schnell gehen – und das Budget für zusätzliche Sprecher:innen ist begrenzt. KI-Stimmen versprechen hier eine zeitsparende und kostengünstige Lösung.

Stimmfarbe und Präsenz:
Die Stimmen von ElevenLabs klingen zwar sauber und technisch beeindruckend, aber es fehlt häufig an der nötigen Körperlichkeit. Gerade in dramatischen Trailern braucht es eine „Wucht“ – ein Stimmvolumen, das tief in den Bauch geht.

Emotionale Dynamik:
Wechsel zwischen Spannung, Ruhe und dramatischem Höhepunkt – wie sie für gute Trailer typisch sind – wirken bei der KI oft flach.

Aussprache & Betonung:
Auch im Englischen waren teilweise Fremd- oder Eigennamen ein Problem – insbesondere deutsche oder osteuropäische Namen wurden unnatürlich betont.

Fazit aus der Trailer-Arbeit

KI-Stimmen können in der Trailerproduktion aktuell eine schnelle Vorschau liefern – z. B. für interne Präsentationen oder erste Vertriebspitches. Für finale, publikumswirksame Fassungen jedoch sind sie noch nicht ausgereift genug, um mit echten Sprecher:innen zu konkurrieren.

Die Stimme ist im Trailer mehr als Information – sie ist Teil der Inszenierung, in manchen Fällen sogar das emotionale Herzstück. Genau hier bleibt die menschliche Stimme unersetzlich.

Traumschlösser und Ritterburgen TRAILER 2025 EN

Austria’s Mountain Villages – Trailer (ENG)

https://vimeo.com/1094343948

KI-Editing: Kann eine KI den Rohschnitt übernehmen?

Während KI-generierte Bilder, Stimmen und Texte längst in der Kreativwelt angekommen sind, beginnt sich auch der Videoschnitt langsam zu verändern. Immer mehr Tools versprechen, Teile des Schnittprozesses zu automatisieren – vor allem dort, wo es um Struktur, Rhythmus und Textverständnis geht. Besonders im Rohschnitt, bei Interviews, Podcasts oder Social Clips, wächst das Potenzial. Für Dokumentationen gilt es bislang ewig bis keine Programme, deshalb bezieht sich diese Analyse primär auf andere Formate.

Die Frage ist, wie gut sind diese KI-Helfer wirklich? Können sie menschliches Schnittgefühl ersetzen oder sind sie nur clevere Assistenten? Um diesen Fragen genau auf den Grund zu gehen, habe ich 4 Programme genauer betrachtet Autopod, Descript, Pictory und AutoCut.

1. Autopod

Autopod ist ein Plugin für Adobe Premiere Pro, das automatisch zwischen Kameraperspektiven schneidet, primär perfekt für Podcasts oder Interviews mit mehreren Sprecher:innen. Die KI erkennt, wer spricht, und schaltet zur passenden Kameraansicht, ohne dass manuelle Schnittpunkte gesetzt werden müssen.

Stärken:

  • Extrem schnelle Erstellung eines Multicam-Rohschnitts
  • Individuell anpassbare Regeln für Kameraschnitte
  • Spart Stunden bei langen Interviews oder Diskussionsformaten

Schwächen:

  • Emotionale Reaktionen (Blickkontakt, stille Reaktionen) werden nicht erkannt
  • Für filmischere Formate mit dramaturgischem Feingefühl ungeeignet
  • Nur sinnvoll bei klaren Audioverhältnissen und separaten Mikrofonspuren

Preis: $29/Monat

2. Descript

Descript bietet einen textbasierten Ansatz: Das Videomaterial wird transkribiert und lässt sich wie ein Word-Dokument bearbeiten. Löscht man einen Satz im Text, entfernt die Software automatisch den dazugehörigen Clip. Ideal für Interviews, Tutorials oder Podcasts.

Stärken:

  • Intuitive Bedienung über Text – ideal für Nicht-Editor:innen
  • Automatische Entfernung von Füllwörtern und Pausen
  • Tolle Exportoptionen für Podcast, Video und Social Media

Schwächen:

  • Schnittlogik ist linear und reduziert – komplexe Szenen schwer umsetzbar
  • Keine filmische Gestaltung möglich (Schnittdynamik, Rhythmus)
  • Design und Typografie stark limitiert – visuelle Nachbearbeitung nötig

Preis: Hobbyist $24/Monat, Creator $35/Monat, Business $65/Monat

3. Pictory 

Pictory ist ein browserbasiertes Tool, das sich vor allem an Marketing- und Content-Teams richtet. Aus einem Video (z. B. Interview oder Webinar) generiert Pictory automatisch Kurzclips mit Untertiteln, passenden Schnitten und visuellen Highlights. Der Fokus liegt klar auf Social-Media-fähigem Content.

Stärken:

  • Gute Transkription und Keyframe-Erkennung
  • Schnelle Erstellung von 30–90 Sekunden-Clips mit Untertiteln
  • Effizient für Reels, LinkedIn-Snippets oder Insta-Stories

Schwächen:

  • Visuelle Qualität ist oft generisch
  • Erkennung wirklich relevanter Aussagen ist oberflächlich
  • Keine filmische Präzision, kein Dramaturgieverständnis

Preis: Starter $25/Monat, Professional $49/Monat, Team $119/Monat

4. AutoCut 

AutoCut ist ein Plugin für Adobe Premiere Pro und DaVinci Resolve, das auf KI-gestützte Automatisierung im Videoschnitt spezialisiert ist. Es richtet sich an Creator, Podcaster:innen und Content-Teams, die mit Talking-Head-Videos, Interviews oder Social Media Clips arbeiten. AutoCut analysiert Audio und Bild, entfernt Sprechpausen, setzt automatische Zooms, erstellt Untertitel und schneidet Multicam-Interviews auf Basis der Sprechererkennung.

Stärken:

  • Sehr gute Erkennung von Sprechpausen und automatische Entfernung
  • Schneller Multicam-Schnitt nach Sprecherwechsel (ideal für Podcasts)
  • Direkt in Premiere Pro / Resolve integriert, kein Wechsel ins Browser-Tool
  • Zusätzliche Features wie AutoZoom, AutoCaptions und AutoResize

Schwächen:

  • Dramaturgische Entscheidungen (z. B. Blickkontakt, Betonungen) bleiben KI verborgen
  • Transkriptionsfehler führen zu falschen Schnitten oder Untertitelproblemen
  • Visuelle Gestaltung (z. B. Layout der Captions) wirkt oft generisch
  • Für emotionale, dokumentarische oder künstlerische Schnitte ungeeignet

Preis: AI Plan $19,80/Monat

Fazit: 

Die getesteten Tools zeigen: KI kann bereits viel leisten, vor allem in Formaten, die strukturiert, repetitiv und sprachbasiert sind. Interviews, Podcasts, Webinare oder kurze Clips lassen sich in erstaunlicher Geschwindigkeit vorbereiten – das spart Zeit und Ressourcen. Wer ihre Stärken kennt und gezielt einsetzt, profitiert enorm. 

Was KI allerdings nicht kann: Emotionale Spannungsbögen erfassen, Bild-Ton-Dramaturgie gestalten, Subtext, Ironie oder Timing bewusst einsetzen

Der menschliche Schnitt bleibt weiterhin entscheidend – besonders in dokumentarischen, erzählerischen oder cineastischen Formaten. KI-Tools wie Autopod oder AutoCut sind effiziente Helfer, aber keine Erzähler.

Warum der Mensch (aktuell) im Schnittprozess unverzichtbar bleibt

Trotz aller beeindruckenden Fortschritte bleibt eines klar: Der Schnitt ist nicht nur ein technischer, sondern vor allem ein erzählerischer und ethischer Akt. Schnitt bedeutet Auswahl, Interpretation, Gewichtung – und oft auch Verantwortung gegenüber Menschen, deren Stimmen und Geschichten im Film sichtbar werden. Eine KI mag Tempo und Struktur automatisieren, aber sie versteht nicht, was sie erzählt. Sie kennt keine Zwischentöne, keine Intention, kein Mitgefühl. Besonders im dokumentarischen Kontext braucht es ein Gespür für Stimmung, Respekt, Spannung und Relevanz – all das sind Eigenschaften, die nur der Mensch im Schnittraum mitbringt. KI kann helfen, Prozesse zu beschleunigen, aber nicht ersetzen, was das Erzählen menschlich macht: Empathie, Kontext und die Fähigkeit, Bedeutung aus Bildern und Stimmen zu formen. Die kreative Verantwortung liegt – und sollte auch weiterhin – beim Menschen bleiben.

Quellen: https://www.autopod.fm

https://www.descript.com/?redirect=false

https://pictory.ai

https://www.autocut.com/en/

Storytelling mit KI: Kann eine KI ein Drehbuch schreiben?

Durch KI und den leichten Zugang dazu hat sich das kreative Schreiben vor allem in der letzten Zeit stark verändert – künstliche Intelligenz ist längst nicht mehr nur ein Werkzeug für Datenanalyse, sondern wird auch aktiv in künstlerischen Prozessen verwendet. 

Vom Verfassen von Gedichten bis hin zu Romanen: KI-gestützte Tools übernehmen inzwischen Aufgaben, die bis vor kurzer Zeit noch der Kreativität der Menschen vorbehalten waren. Doch wie sieht das beim Drehbuchschreiben aus, doch einer der anspruchsvollsten Formen des Storytellings. Gerade beim Drehbuch geht es um so viele kleine Nuancen, die das Gesprochene natürlich und authentisch machen. Kann KI hier auch gute Ergebnisse erzielen?

Kann eine KI dramaturgische Spannung erzeugen, emotionale Tiefe vermitteln und glaubwürdige Dialoge schreiben? Oder bleibt sie letztlich ein algorithmischer Imitator menschlicher Kreativität? Um diese Frage zu beleuchten, vergleiche ich in diesem Blogbeitrag zwei Drehbücher: eines komplett von ChatGPT generiert “ZEITSCHLEIFE” und eines mir selbst, das für den finalen Studiodreh in genau dieser Form verwendet wurde “TRAPPED IN THE LOOP”.

Generierung des KI-Drehbuchs:

Um das KI-Drehbuch zu erhalten, habe ich die KI mit folgenden Infos gefüttert und den Prompt folgend formuliert. Bestandteile waren die Szenecard, die Logline des Stücks allgemein und die Angaben aus dem Unterricht, der auch die Grundlage für das menschlich formulierte Skript waren.

„Schreibe ein Skript für eine kurze Szene mit folgenden Angaben:

INT. VERHÖRRAUM – POLIZEIWACHE – 2:00 NACHTS 

Kalter Raum. Neonlicht. Ein Tisch. Zwei Stühle.
Phil sitzt in einer Polizeiwache. Eine Kommissarin vor ihm. „Was ist passiert?“ 

Emotion
Phil ist voller Angst, Verzweiflung und Verwirrung. Kann zwischen Realität und Einbildung nicht mehr unterscheiden. Tiefe Trauer weil sein bester Freund ermordet wurde. 

Konflikt
Phil hat keine Erinnerung mehr.
War wirklich er der Mörder seines besten Freundes? 

Logline 

Ein exzessiver Partyabend wird für Phil, einen charismatischen, aber innerlich zerrissenen DJ, zum Albtraum, als er nach dem Konsum einer unbekannten Droge in einer Zeitschleife gefan- gen zu sein scheint. Vergangenheit, Gegenwart und Zukunft verschwimmen, und als er sich plötzlich vor einer Leiche wie- derfindet, stellt sich die Frage: Ist er der Mörder – oder nur ein Spielball seiner eigenen Wahrnehmung? 

Write a rough draft for the script of your chosen scene. 

1 page = 1 minute, so your script should be roughly 5 pages (excluding the cover page)

With regard to our studio shoot, the scene should include only one male and one female person of middle age (at least visibly on-screen).

A maximum of two sets should be used, which we can create in our studio (though thinking big is definitely encouraged).”

Der Outcome war folgendes Script:

Analyse und Vergleich der beiden Drehbücher

Struktur und Aufbau

Beide Drehbücher folgen aufgrund der Angabe und er Scenecard einer ähnlichen Grundstruktur: ein Verhörraum, eine Kommissarin, ein verwirrter Mann (Phil), ein mysteriöser Todesfall und eine rätselhafte Zeitschleife. 

Doch während der menschlich geschriebene Text stark zwischen Szenen wechselt – vom Verhörraum zur Party und wieder zurück. Das KI-Skript, das die Grundidee von „Trapped in a Loop“ also dem gefangen sein in einer Zeitschleife nicht ganz erfasst hat, bleibt in einer statischen Perspektive und erwähnt den Loop nur im Dialog. Der KI-Text fokussiert sich primär auf die Dialogszene im Verhörraum, was dramaturgisch dichter, aber auch weniger dynamisch wirkt.

Das echte Drehbuch hingegen nutzt filmische Stilmittel wie Match Cuts, Rückblenden und mentale Dissoziation, um die emotionale und narrative Verwirrung des Protagonisten visuell zu inszenieren und nicht nur sprachlich zu vermitteln. Der Szenenwechsel unterstützt den Plot: Realität und Erinnerung verschwimmen, was das Loop-Konzept glaubhaft und spürbar macht.

Dialog und Charaktertiefe

Im KI-Skript zeigt Phil emotionale Verzweiflung – Tränen, Zweifel, Erinnerungslücken. Auch die Kommissarin Keller ist klar gezeichnet: rational, aber mitfühlend. Dennoch wirken die Dialoge gelegentlich generisch und sehr aufgesetzt. Nichts was „Echte“ Menschen in so einem Fall sagen würden wenn sie wegen Mordverdachts auf einer Polizeiwache sitzen, etwa wenn Phil sagt: „Vielleicht war ich es. Vielleicht war ich es nicht.“

Im menschlich verfassten Skript hingegen ist die Sprache roher, direkter und glaubwürdiger. Die Kommissarin Lenz verliert mitunter die Geduld, ist fordernd, emotional, ungeduldig. Phil wechselt zwischen Panik, Nostalgie und purer Verzweiflung. Besonders eindrucksvoll ist eine Stelle, in der Phil schreit: „ICH VERSUCH JA ES IHNEN ZU ERKLÄREN!“, ein Ausbruch, der seine Zerrissenheit greifbar machen soll. Im Schreibprozess haben wir sehr stark den Fokus daraufgelegt, dass wir die Text so real und natürlich wie möglich gestalten. Denn im Endeffekt sind unsere Schauspieler:innen echte Menschen, mit österreichischem Background und daher war es wirklich wichtig, dass die Texte so gut wie möglich unserer gesprochenen Sprach ähneln. 

Themen und Tiefe

Beide Skripte behandeln existenzielle Themen: Schuld, Wahrnehmung, Realität und Zeit. Die KI thematisiert diese Ideen explizit: Phil spricht davon, in einer anderen Schleife seinen Freund retten zu können. Das ist philosophisch interessant, bleibt aber abstrakt.

Im echten Drehbuch verwebt die Themen subtiler ins Geschehen: Die Zeitschleife offenbart sich nicht nur im Text, sondern in der Struktur des Drehbuchs selbst. Wiederholungen, Fragmentierungen und sich überlagernde Realitäten spiegeln die psychische Lage von Phil. Die Zuschauer:innen sollen ebenso verloren wie die Hauptfigur und selbst nicht mehr ganz wissen, was real ist und was nicht.

Originalität und Innovationskraft

Die KI zeigt ein beachtliches Maß an handwerklicher Kompetenz: klare Szenenbeschreibung, dramatischer Aufbau, solide Dialogführung. Doch das Skript bleibt in bekannten KI-Scheme. Überraschungsmomente fehlen und der Text wird sehr künstlich und nicht nahbar.

Im Gegensatz dazu hat sich das menschlich geschriebene Skript anders orientiert: der narrative Loop ist nicht nur Thema, sondern auch Form. Das Spiel mit Zeitebenen und subjektiver Wahrnehmung ist komplexer und filmischer gedacht. 

Fazit: Wo liegt die Zukunft des Drehbuchschreibens?

Die KI hat beeindruckend gezeigt, dass sie Grundstrukturen und emotionale Dynamik eines Drehbuchs erfassen und wiedergeben kann. Ihre Texte sind formal korrekt, verständlich und atmosphärisch. Doch sie fehlen oft der Subtext, die emotionale Tiefe, die feinen psychologischen Nuancen. Kurz: die künstlerische Handschrift.

Menschliche also wirkliche Autor:innen bringt Intuition, Erfahrung und vor allem Gespür mit ein. Man weiß, wann man weniger sagt und mehr zeigt, wann ein Schnitt mehr erzählt als ein Satz.

Künstliche Intelligenz kann bereits heute ein wertvolles Werkzeug im kreativen Prozess sein: als Ideengeber, als Dialogvorschlaggeber, als dramaturgische Unterstützung oder auch einfach in der Korrektur. Aber die Rolle der Autor:innen, die aus Ideen eine Filmszene machen, bleibt, zumindest aktuell, menschlich.

Die spannendste Perspektive liegt wohl in der Zusammenarbeit und Kombination. Schön zu wissen, dass ein KI-Text zumindest aktuell in diesem Setting unseren Ansprüchen als Zuseher:innen und Filmemacher:innen nicht gerecht wird!

Erster Prototyp: Reales Footage durch KI ersetzen – erkennt man einen Unterschied?

Ausgangslage

Für den ersten Prototyp meines Semesterprojekts verwende ich ein bereits bestehendes Video, das aus verschiedenen Drohnenflügen der letzten Jahre zusammengeschnitten wurde. Der Clip ist bewusst schnell geschnitten und kombiniert unterschiedliche Landschaftsaufnahmen in schneller Abfolge. Ziel des Experiments ist es, einen Teil dieser realen Aufnahmen durch KI-generierte Bilder zu ersetzen und anschließend zu überprüfen, ob der Unterschied für den Betrachter unmittelbar erkennbar ist.
Wichtig ist hierbei die Einschränkung, dass ausschließlich Landschaftsbilder verwendet werden. Aufnahmen mit Menschen werden bewusst vermieden, da dies sowohl den Generierungsprozess als auch die spätere Bewertung der Ergebnisse erheblich erleichtert.

Das Ziel dieses Prototyps ist es, die Grenzen zwischen realen Drohnenaufnahmen und KI-generiertem Footage auszutesten. Dazu ersetzte ich im Originalvideo einige der Drohnenszenen durch von HailuoAI und Sora erstellte Sequenzen.

Prototyp

Im ersten Schritt tauschte ich gezielt einzelne Drohnenshots durch die generierten B-Roll-Clips aus, wobei besonderes Augenmerk auf die Vergleichbarkeit gelegt wurde.
Der Fokus der Analyse liegt darauf, zu untersuchen, wie deutlich sich die KI-Bilder von den echten Aufnahmen unterscheiden, auch hinsichtlich der subjektiven Wahrnehmung durch die Betrachter:in.

Um dies zu überprüfen, werde ich im nächsten Schritt eine kleine Umfrage durchführen. Dabei werde ich ausgewählte Ausschnitte aus dem Video zeigen und die Teilnehmer:innen bitten, anzugeben, welche Szenen sie als real und welche sie als KI-generiert einschätzen.

Und hier das aktuelle Video mit KI-Teilen

Frage an sich selbst: Erkennt man die KI Parts deutlich?

Hier einen Ausschnitt des Original Videos:

Herangehensweise

Zu Beginn meines Versuchs wollte ich mit Hilfe eines Prompts ein Video eines schönen Sonnenuntergangs erstellen. Die erste Eingabe lautete:
„Drohnenflug, Sonnenuntergang, über den Wolken, schöne und cinematische Lichtstimmung, leichter Anstieg.“

Das Ergebnis entsprach jedoch nur bedingt meinen Vorstellungen. Zwar wurde ein Sonnenuntergang generiert, allerdings war in den meisten Clips die Drohne selbst im Bild zu sehen, was der angestrebten Ästhetik widersprach.

Um das Problem zu beheben, passte ich den Prompt an und ergänzte die Anweisung, dass die Drohne nicht sichtbar sein sollte:
„Drohnenflug (Drohne nicht im Bild), Sonnenuntergang, über den Wolken, schöne und cinematische Lichtstimmung, leichter Anstieg der Drohne im Bild.“

Trotz dieser genaueren Formulierung blieb das Resultat hinter den Erwartungen zurück. Die Drohne tauchte weiterhin in den generierten Videos auf, sogar sehr präsent im Bild.

Ein dritter Anlauf folgte mit einer leicht vereinfachten Formulierung:
„Drohnenflug (Drohne nicht im Bild), Sonnenuntergang, über den Wolken, schöne und cinematische Lichtstimmung.“

Doch auch dieser Versuch führte nicht zum gewünschten Ergebnis. Die KI interpretierte die Angaben nicht konsequent, sodass immer wieder Bildelemente auftauchten, die nicht der Vorstellung eines klaren, „drohnenlosen“ Himmelsflugs entsprachen.

Nach mehreren erfolglosen Prompt-Varianten entschied ich mich für eine alternative Herangehensweise: Anstatt nur mit Textvorgaben zu arbeiten, lud ich ein eigenes Ausgangsbild hoch. Dafür wählte ich jeweils den ersten Frame eines geeigneten Drohnenvideos.

Bei HailuoAI gibt es die Möglichkeit, auf Basis eines hochgeladenen Bildes einen kurzen Clip zu generieren. Zusätzlich kann man Anweisungen zur gewünschten Kamerabewegung formulieren. Diese Funktion nutzte ich gezielt, um die Bilddynamik nachzustellen, etwa durch einen sanften Anstieg oder einen leichten Schwenk, um den Eindruck eines realen Drohnenflugs zu verstärken.

Insgesamt funktionierte diese Methode deutlich besser als die reine Prompt-Eingabe. Die Resultate wirkten stimmiger und entsprachen eher der ursprünglichen Vision.
Natürlich gab es auch hier kleinere Fehler und Unstimmigkeiten, die sich nicht ganz vermeiden ließen. Ein „Best of“ der Fehlversuche.

Vergleich: Sora von OpenAI und HailuoAI

Zunächst plante ich, die Erstellung der KI-generierten B-Roll mit Sora von OpenAI umzusetzen. Sora versprach durch seine Text-to-Video-Technologie hochwertige Ergebnisse und schien zunächst eine vielversprechende Wahl zu sein. In der praktischen Anwendung zeigten sich jedoch einige Schwierigkeiten. Während der Generierungsversuche traten wiederholt Fehlermeldungen auf, die den Prozess unterbrachen oder komplett verhinderten. Zusätzlich kam es zu sehr langen Wartezeiten, und die Plattform machte oft keine klaren Angaben über die voraussichtliche Dauer der Erstellung.
Diese wiederholten Probleme führten schließlich dazu, dass ich mich intensiver nach Alternativen umschaute.

Nach eingehender Recherche (mehr dazu im 4. Blogpost) entschied ich mich, HailuoAI zu testen. Ein entscheidender Vorteil von HailuoAI war das flexible Preismodell. Nutzer erhalten beim Anlegen eines kostenlosen Kontos 1100 Credits, wobei die Generierung eines Videos 30 Credits kostet.

KI-gestützte B-Roll-Erstellung: Grundlagen und Tools im Überblick

Was ist B-Roll?

In der Videoproduktion bezeichnet B-Roll alle Aufnahmen, die zusätzlich zum Hauptmaterial (A-Roll) verwendet werden. Während A-Roll z. B. ein Interview oder eine Moderation zeigt, bietet die B-Roll ergänzende visuelle Eindrücke: Detailaufnahmen, Landschaften, Arbeitsprozesse oder illustrative Bilder – einfach alles, was das gesagte im A-Roll bildlich unterstützt und verdeutlicht.

B-Roll erfüllt mehrere wichtige Aufgaben:

Visuelle Auflockerung: Monotone Einstellungen werden durch abwechslungsreiche Bilder aufgelockert.

Erzählerische Unterstützung: Komplexe Inhalte können durch Bilder und/oder Illustrationen verständlicher gemacht.

Emotionale Vertiefung: Stimmung und Atmosphäre können gezielt verstärkt werden.

Fehlerüberdeckung: Schnittfehler, inhaltliche Lücken oder typischerweise Versprecher oder Denkpausen können weggeschnitten werden und durch B-Roll kaschiert werden.

Gerade in Social Media, YouTube und Marketingvideos ist B-Roll ein wichtiges Mittel, um die Aufmerksamkeitsspanne der Zuschauer hochzuhalten.

Traditionell bedeutete B-Roll jedoch auch einen erheblichen Produktionsaufwand und/oder Kostenaifwand: Separate Drehs/mehr Drehzeit am Set, um genügend Material zu produzieren, teure Stock-Videolizenzen oder aufwendige Archiv-Recherchen waren oft notwendig. KI-Technologien können hier inzwischen eine praktische und günstige Alternative sein.

KI und B-Roll: Warum der Einsatz sinnvoll ist

Mit Hilfe von KI kann B-Roll automatisch aus Archiven zusammengestellt (z.B. eine Suchanfrage auf ChatGPT), gezielt für bestimmte Themen generiert (durch durch Bild-zu-Video-Modelle) oder sogar komplett neu erstellt werden (z.B. durch Text-zu-Video-Modellen).

Gerade für kleine Teams, Content Creator oder Low-Budget Projekte sind KI-gestützte Lösungen eine Möglichkeit, schneller und günstiger hochwertiges Zusatzmaterial zu produzieren und somit Videos besser zu machen. Vor allem wenn man die Aufmerksamkeitsspanne der Benutzer:innen in Betracht zieht, ist der Einsatz von gut abgestimmten B-Roll von großer Bedeutung.

(Quellen: https://www.yourfilm.com.au/blog/understanding-the-importance-of-b-roll-footage-in-video-production/#:~:text=Think%20of%20b%2Droll%20as,and%20variety%20to%20your%20story.

https://alecfurrier.medium.com/generative-ai-video-generation-technologies-infrastructure-and-future-outlook-ad2e28afae8c

https://filmustage.com/blog/the-future-of-ai-in-video-production-innovations-and-impacts/#:~:text=AI%20in%20video%20editing%20software,inspiring%20stories%20without%20extra%20work. )

Zwei Tools im Überblick

OpusClip

OpusClip ist ein KI-gestütztes Videobearbeitungs-Tool, das sich darauf spezialisiert hat, lange Videoformate automatisch in kurze, social-media-taugliche Clips zu verwandeln. Besonders hervorzuheben ist dabei die Fähigkeit der Plattform, zentrale Aussagen und visuelle Highlights im Ursprungsmaterial eigenständig zu erkennen und daraus eigenständige Kurzvideos zu generieren.

Die Funktionsweise basiert auf einer Kombination von Textanalyse und Bildinterpretation. OpusClip analysiert zum einen die Audiospur des hochgeladenen Videos, identifiziert Schlüsselsätze, besonders betonte Aussagen oder emotional wichtige Momente und schlägt dazu passende Schnittpunkte vor. Zum anderen berücksichtigt das Tool visuelle Anhaltspunkte wie Gestik, Mimik oder Veränderungen im Szenenbild, um passende Start- und Endpunkte für die Clips zu bestimmen.

Für die B-Roll-Erstellung spielt OpusClip insofern eine Rolle, als dass es Übergänge und Zwischenschnitte automatisch verbessern kann. Während der Clip-Erstellung werden Elemente wie Zooms, automatische Bildanpassungen oder Text-Overlays eingesetzt, um die visuelle Dynamik zu erhöhen. In neueren Versionen bietet OpusClip sogar eine direkte Integration von kurzen B-Roll-Sequenzen, etwa Naturaufnahmen oder städtische Szenen, um monotone Passagen aufzulockern.

Die Plattform richtet sich hauptsächlich an Content Creator, Marketer und Unternehmen, die Video-Content schnell für Plattformen wie TikTok, Instagram Reels oder YouTube Shorts aufbereiten wollen. Besonders vorteilhaft ist die enorme Zeitersparnis, da der komplette Analyse-, Schnitt- und teilweise B-Roll-Prozess automatisiert erfolgt. OpusClip ermöglicht außerdem die Anpassung an verschiedene Formate (16:9, 9:16, 1:1), was für Multiplattform-Strategien relevant ist.

Zusammengefasst: OpusClip ist ein leistungsstarkes Tool für schnelles Content-Repurposing. Die KI unterstützt dabei nicht nur beim Kürzen und Strukturieren, sondern kann auch visuelle Auflockerung durch einfache B-Roll-Integration bieten. Der Fokus liegt hier weniger auf hochwertiger individueller B-Roll, sondern auf Effizienz und sofortiger Publikation.

(Quelle: https://youtu.be/4mCU6HtvoAI?si=-Y60nYEQRMxDnviB
https://youtu.be/tVIFWx6KVzU?si=rLSd0Lrv2NE8OcO8 )

HailuoAI

HailuoAI verfolgt einen anderen Ansatz: Die Plattform ist darauf spezialisiert, kurze, eigenständige Videosequenzen zu generieren, die sich hervorragend als B-Roll oder visuelle Ergänzungen eignen. Nutzer geben Themen oder Stichwörter (Prompts) ein, und die KI erstellt daraufhin eigenständig passende Clips, basierend auf vorhandenen Stock-Datenbanken und KI-generierten Animationen.

Im Gegensatz zu klassischen Stock-Plattformen wird das Material bei HailuoAI dynamisch angepasst: Farbe, Stil, Geschwindigkeit und Übergänge können je nach Nutzerwunsch variiert werden. Besonders hervorzuheben ist die Benutzeroberfläche: Nach der Eingabe eines Prompts erhält man eine klare Auflistung aller generierten Videos, inklusive einer übersichtlichen Vorschau. Nutzer können die Clips bewerten, speichern oder weiterverarbeiten. Auch der verwendete Prompt wird transparent angezeigt, was bei der späteren Organisation oder Optimierung hilft.

Ein weiterer Vorteil liegt im zugänglichen Preismodell. Bereits mit einem kostenlosen Konto stehen einem zahlreiche Generierungen zur Verfügung (über ein Credit-System), bevor überhaupt ein Abonnement nötig wird. So lässt sich die Qualität des Tools umfangreich testen, ohne sofortige Verpflichtungen einzugehen.
Technisch gesehen arbeitet HailuoAI hauptsächlich mit synthetischem Footage und stockbasierten Elementen. Die Plattform ist besonders stark im Bereich atmosphärischer B-Roll: Himmel, Berge, Meereslandschaften, urbane Silhouetten oder generische Naturaufnahmen lassen sich sehr schnell und in akzeptabler Qualität erzeugen.

Ein kleiner Nachteil ist, dass nach mehreren Video-Generierungen zeitliche Sperren (Cooldowns) greifen. Manchmal muss man bis zu 20 Minuten warten, bis man neue Clips erstellen kann. Trotzdem bleibt der Prozess insgesamt intuitiv und benutzerfreundlich.

Zusammengefasst: HailuoAI ist ein flexibles Werkzeug für die Erstellung von B-Roll-Sequenzen auf Basis von Themenvorgaben. Im Vergleich zu OpusClip geht es hier weniger um die Bearbeitung von bestehendem Material, sondern um die Neuschaffung von visuellem Content, ideal für atmosphärische Ergänzungen und kreative Gestaltung.

(Quelle: https://youtu.be/CqWulzM-EMw?si=LCYfXD_AWSKGNbKY https://youtu.be/DuRHup2QxtI?si=7AZkooXp5_gotnLH https://hailuoai.video )

Einsatz von KI zur Erstellung von Visuals für VJing – Erfahrungen beim Generate25 Festival

Für unseren VJing-Einsatz am 23.05.2025 beim Generate25 Festival wollten wir visuell neue Wege gehen. Dabei entschieden wir uns, den Einsatz von KI für die Erstellung unserer Visuals zu testen – genauer gesagt, nutzten wir das Video-KI-Modell Sora von OpenAI. Unser Ziel war es, visuelle Clips zu erzeugen, die sich ästhetisch klar vom Mainstream abheben: rau, kontrastreich, lo-fi.

Erste Versuche – ein rauer Start

Im ersten Schritt versuchten wir, unseren gewünschten Look möglichst offen und flexibel über einen Prompt zu definieren:

„The videos / black & white / very low framerate or image series, random ubahn, city lights, random dancen, Blurry and grainy“

Sora generierte daraufhin zweii Videos. Das erste wirkte zunächst recht vielversprechend und wurde in die erste Auswahl der Clips aufgenommen – später allerdings wieder aussortiert. Das zweite Video zeigte deutliche Schwächen: typisch für KI-Generationen waren hier eigenartige Bewegungsabläufe zu sehen, etwa eine „Person“, die unnatürlich an einem Auto entlanglief, völlig losgelöst von realen Bewegungsmustern.

Anpassung durch Inspo-Upload

Im nächsten Schritt versuchten wir, durch den Upload eines Inspirationsvideos und denselben Prompt bessere Ergebnisse zu erzielen. Auch hier wurden zwei neue Clips erstellt, die jedoch weiterhin stark unter KI-typischen Artefakten litten: Bewegungen wirkten seltsam verzerrt, die Bildkompositionen fehlten an Authentizität.

Um die Richtung zu verändern, passten wir den Prompt an:

„A black and white Video of a night-Life Scene in very low framerate. High contrast, very grainy and shakey with motion blur. You see Teenager dancing thourgh the street.“

Das Ergebnis: Videos, die eher an Kobolde als an tanzende Jugendliche erinnerten. Zusätzlich trat ein Problem bei den Bildformaten auf: Ein weißer und schwarzer Rand machte das Video eher quadratisch (1:1), anstatt das gewünschte 9:16-Format einzuhalten.

weiteren Versuch mit surrealen Motiven:

„A black and white Video of a night-Life Scene in very low framerate. High contrast, very grainy and shakey with motion blur. You see closeup of someone eating a cigarette.“

Selbst nach mehrmaligen Anpassung des Prompts entstand kein zufriedenstellendes Ergebnis. Auffällig war hier, dass trotz „starkem Remix“-Befehl die hochgeladene Inspiration nahezu 1:1 nachgebaut wurde, statt neue kreative Varianten zu schaffen. Auch die erhoffte surreale Stimmuug kam nicht so intensiv rüber wie gewünscht.

“A close-up shot of a person slowly eating a cigarette. The footage is extremely high contrast, very grainy, with intense motion blur and camera shake. Shot in a gritty, lo-fi style reminiscent of vintage handheld film cameras. Harsh lighting flickers subtly as the person chews. The cigarette ash crumbles with every bite. The camera moves erratically, creating a surreal and uncomfortable mood. No sound.”

Richtungswechsel – Fokussierung auf Overlays

Da die Clip-Erstellung mit menschlichen Motiven nicht die gewünschte Qualität brachte, wechselten wir den Ansatz: Wir setzten auf die Erstellung von Overlays für die Visuals.

Inspiration war ein fortlaufender Code, ähnlich wie in typischen Hacker-Szenen. Der Prompt lautete:

„full screen, black background, white random numbers, looks like a code generator, numbers move in waves vom right to left out of the screen, endless flow“

Das Ergebnis: Drei solide Videos, die wir anschließend weiter optimierten. Mit einem angepassten Prompt (“write the code from left to right, like real written code”) schufen wir eine Version, die visuell noch näher an echten Programmcodes wirkte. Diese Overlays funktionierten im finalen VJ-Set hervorragend.

Der Prompt wurde angepasst und dieses Video erstellt, ebenfalls ein Videos, das es in die finale Auswahl schaffte:

„full screen, black background, white random numbers, looks like a code generator, numbers move in waves from right to left out of the screen, endless flow, write the code from left to right, like real written code”

Fazit:

Unser Einsatz von KI-Tools für die Erstellung von VJ-Visuals war eine spannende, aber auch lehrreiche Reise. vor allem wenn komplexe menschliche Bewegungen oder choreografierte Szenen gewünscht sind, gestaltet sich das Ganze noch recht schwierig.

Für Bewegtbilder mit Personen bleibt die KI weiterhin herausfordernd. Besonders auffällig waren dabei eigenartige Bewegungsabläufe und generelle Inkonsistenzen im physischen Verhalten von Figuren. Details wie realistische Tanzbewegungen, natürliche Interaktionen mit der Umgebung oder korrekte Anatomie stellten das Modell vor große Probleme. Auch das Einhalten von spezifischen Bildformaten oder der bewusste künstlerische Einsatz von Unschärfe, Körnung und Kamerawacklern gelang nur begrenzt.

Deutlich besser funktionierte die KI jedoch bei abstrakten oder sich wiederholenden Mustern, wie bei unseren Overlay-Experimenten. Hier konnten wir schnell ästhetisch ansprechende Ergebnisse erzielen, die unsere Shows bereicherten. Besonders angenehm: Die KI konnte hier auf Basis simpler Inputs visuelle Strukturen generieren, die sich in der Live-Performance sehr gut in den Fluss der Musik einfügen ließen.

Zusammengefasst:

  • Für reine Clips mit menschlichen Darstellungen ist der Einsatz von KI derzeit eher noch experimentell und fehleranfällig.
  • Für Overlays, Loops und abstrakte Visuals bietet KI bereits jetzt ein extrem starkes Toolset, das kreative Prozesse enorm beschleunigen und bereichern kann.

Für das künftige Projekte bleibt der Plan, reales Footage durch KI-Footage zu ersetzten und herauszufinden, wie gut dieses aufgenommen wird. Hier ist der Zugang, dass „Ausgangsmaterial“ aus den bestehenden Videos hochzuladen und KI eine idente Kopie erstellen zu lassen.

Erste Testungen: Adobe Firefly Video Model und Sora

Testphase: Visuelle und animierte Elemente mit KI gestalten

Um herauszufinden, wie präzise und leistungsfähig aktuelle KI-Tools im kreativen Gestaltungsprozess sind, habe ich zwei vielversprechende Anwendungen getestet: das Adobe Firefly Video Model sowie Sora von OpenAI. Beide kamen im Rahmen der Entwicklung eines Plakats für eine Veranstaltungsreihe zum Einsatz – mit dem Ziel, sowohl ein visuell ansprechendes Grundmotiv als auch eine subtile, animierte Variante zu erzeugen.

Ausgangslage
Für das statische Design des Plakats wurde zunächst die generative KI in Adobe Photoshop genutzt. Ziel war es, ein Hintergrundmuster zu erstellen, das sich stilistisch harmonisch in die Serie der bereits bestehenden Plakate einfügt. Dabei war wichtig, dass das visuelle Erscheinungsbild – insbesondere die Farbwelt und grafische Struktur – konsistent bleibt, aber dennoch ein eigenständiges Muster aufweist.

Der verwendete Prompt in Photoshop lautete:
„blaue Farben, feine Linien, Stil ähnlich, aber anderes Muster“

Nach einigen Variationen und Anpassungen wurde ein Ergebnis generiert, das sowohl ästhetisch als auch kontextuell gut zum bestehenden Designkonzept passt.

Im nächsten Schritt ging es darum, das statische Motiv dezent zu animieren, um für Social Media eine lebendige, aber nicht aufdringliche Version zu erzeugen. Der Fokus lag auf einer subtilen Bewegung der Linienstruktur, die dem Plakat eine zusätzliche visuelle Tiefe verleihen sollte, ohne den Charakter der Gestaltung zu verändern.

Zur Umsetzung dieser Animation wurden zwei KI-Video-Tools getestet:

  • Adobe Firefly Video Model
  • Sora von OpenAI

In den folgenden Abschnitten werden die jeweilige Vorgehensweise, die generierten Ergebnisse sowie der direkte Vergleich der Tools erläutert.

Adobe Firefly Video Model:

Hier kam das „Bild-zu-Video“-Tool zum Einsatz. Das Hintergrund Bild wurde als Frame hochgeladen, das Videoformat auch Hochformat 9:16 gestellt. Bei Kamera und Kamerabewegung wurde keine Auswahl getroffen. 

Der Prompt lautete: very slow movement; flowy liquid; lines glow in the dark; move very slow; slimy; flowy, liquid close up

Das erste generierte Ergebnis:

  • An sich tolles Ergebnis
  • Linien bewegen sich relativ schnell aber kontinuierlich
  • Lichtpunkte in den Linien nicht ganz optimal
  •  Fällt zum Schluss in der rechten unteren Ecke sehr ab

Da ich noch nicht zu 100% happy war, generierte ich mit den gleichen Einstellungen und dem identen Prompt eine weitere Version, die schlussendlich die finale Fassung des Plakats wurde:

  • Dynamisches Movement, ohne dass ein Teil „wegfällt“
  • Linien leuchten in sich und nicht nur an gewissen punkten
  • Sehr zufrieden mit dem Ergebnis

An sich war ich an diesem Punkt sehr zufrieden, aber dennoch wäre es aus Sicht der Designer:in gut gewesen, noch eine Version, auch eventuell in einem anderen Stil und anderem Movement auszuprobieren. Doch nach dem zweiten Video war leider die Obergrenze der gratis Videos erreicht. 

Pro:
+ schönes Movement
+ auf Anhieb gute Versionen, die dem Visuellen Anspruch gerecht wurden 
+ sehr einfach Anwendung

Con:
– auf 5 Sekunden limitiert, stellt schon eine große Schwierigkeit in der Verwendung des Videos dar
– die Qualität war nicht zu 100% überzeugend
– leider nach 2 Versionen gratis Versuche aus, keine Möglichkeit außer eines Abo-Abschlusses

Sora by OpenAI

Aufgrund meines ChatGPTs Abos war es mir möglich als zweite Version ein KI-Video von Sora generieren zu lassen. Ebenfalls kam das “Bild-zu-Video”-Tool zum Einsatz. Das Hintergrund Bild wurde als Frame hochgeladen, das Videoformat auf 1:1, 480p, auf 5 Sekunden und auf eine Version gestellt. Hier wäre es an sich möglich, die Dauer des Clips auf 10 Sekunden zu erhöhen, um aber vor allem bei den ersten Versuchen nicht zu viele Credits zu verbrauchen, wählte ich hier ebenfalls die 5 Sekunden. Ebenfalls gibt es in Sora die Möglichkeit ein Storyboard hochzuladen. Generell sind die Möglichkeiten bei diesem Tool großer als bei Adobe Firefly.

Der Prompt lautete gleich wie bei Adobe FireFly: very slow movement; flowy liquid; lines glow in the dark; move very slow; slimy; flowy, liquid close up

Das Ergebnis:

An auch ein sehr großartiges Ergebnis, mit vielen Möglichkeiten, um nachzuschärfen und genau das zu erreichen, das man möchte. Dieses Video „kostete“ 20 Credits.

Pro:
+ länger als 5 Sekunden möglich
+ viele Möglichkeiten der Bearbeitung wie z.B. Remix, Blend oder Loop (siehe Bild)


Con:
– optisch nicht ganz so akkurat wie Adobe Firefly, wirkt so als würde Sora ein eigenes Muster erschaffen und nicht direkt mit dem Bild, das hochgeladen wurde arbeiten (würde sich aber auf jeden Fall durch weiter Prompts und Schleifen ändern und präzisieren lassen)

Fazit:

Sowohl Adobe Firefly als auch Sora von OpenAI haben in meinen Tests visuell beeindruckende Ergebnisse geliefert. Die generierten Inhalte überzeugen durch eine bemerkenswerte Bildqualität, kreative Umsetzung und überraschend hohe Präzision in der Darstellung der Texteingaben.

Wie bereits zuvor erwähnt, bringen beide Tools jeweils ihre individuellen Stärken und Schwächen mit. Insgesamt bieten beide Plattformen spannende Möglichkeiten im Bereich der KI-gestützten Visualisierung. Eine endgültige Bewertung hängt daher stark vom jeweiligen Anwendungsfall und den individuellen Anforderungen ab. In diesem Fall fiel die Wahl auf das Video von Adobe Firefly weil das Ergebnis besser zur Stimmung und Anwendungsfall passt. Dennoch war ich sehr positiv von Sora begeistert und würde für die nächsten KI-Videos definitiv darauf zurückgreifen.

Vergleich verschiedener KI-Video-Tools

Im ersten Schritt meiner Recherche zu KI und KI-gestützten Video-Tools habe ich mir einen umfassenden Überblick über die gängigen Anbieter verschafft und die verschiedenen Tools einem ersten Test unterzogen.

Nachfolgend findest du eine detaillierte Auflistung der wichtigsten Funktionen, Preisstrukturen sowie meiner persönlichen Erfahrungen mit den jeweiligen Tools. Abschließend ziehe ich ein Fazit, welches meine bisherigen Erkenntnisse zusammenfasst und eine erste Einschätzung zu den besten Anwendungen für unterschiedliche Anforderungen gibt.

Adobe Firefly Video Model

Adobe Firefly Video Model richtet sich primär an professionelle Anwender aus der Film- und Medienbranche, die hochwertige KI-generierte Clips benötigen. Die Integration in Adobe Premiere Pro macht es besonders attraktiv für bestehende Adobe-Nutzer. In der Anwendung überzeugt Firefly mit einer hohen Qualität der generierten 5-Sekunden-Clips, jedoch sind die aktuellen Funktionen im Vergleich zu anderen KI-Video-Tools noch recht limitiert.

Hauptfunktionen:

  • Generierung von 5-Sekunden-Clips in 1080p​
  • Integration in Adobe Premiere Pro​
  • Fokus auf Qualität und realistische Darstellung​

Preismodell:

Gratis/in der Creative Cloud enthalten: 1.000 Generative Credits für Bild- und Vektorgrafik-Standardfunktionen wie „Text zu Bild“ und „Generatives Füllen“+ 2 KI-Videos

  • Basis: 11,08€ pro Monat für 20 Clips​ à 5 Sekunden
  • Erweitert: 33,26€ pro Monat für 70 Clips​ à 5 Sekunden
  • Premium: Preis auf Anfrage für Studios und hohe Volumen

Fazit:

+ Funktioniert an sich sehr gut, einfaches und logisches Interface, generierte Videos sehr gut (mehr dazu im 2. Blogpost „erste Anwendung“), 

+ unter Bewegungen hat man eine Auswahl an den gängigsten Kamerabewegungen wie (Zoom in/out, Schwenk links/rechts/oben/unten, statisch oder Handheld)

– leider nur 2 Probevideos möglich, auf 5 Sekunden begrenzt

–> werde für das Projekt eventuell für 1-2 Monate Adobe Firefly Standard kaufen (je nach Intensivität der Nutzung und Länge des Endprodukts vllt sogar die Erweiterte Version)

(Quelle: https://firefly.adobe.com/?media=video )

RunwayML

RunwayML ist eine vielseitige KI-Plattform, die sich auf die Erstellung und Bearbeitung von Videos spezialisiert hat. Mit einer benutzerfreundlichen Oberfläche ermöglicht sie es, Videos aus Texten, Bildern oder Videoclips zu generieren. Besonders hervorzuheben ist die Text-zu-Video-Funktion, die es ermöglicht, aus einfachen Texteingaben realistische Videosequenzen zu erstellen. Zudem bietet RunwayML die Möglichkeit, erstellte Videos direkt zu exportieren, was den Workflow erheblich erleichtert.​

Preismodelle:

  • Basic: Kostenlos, 125 einmalige Credits, bis zu 3 Videoprojekte, 5 GB Speicher.
  • Standard: $15 pro Benutzer/Monat (monatliche Abrechnung), 625 Credits/Monat, unbegrenzte Videoprojekte, 100 GB Speicher.​
  • Pro: $35 pro Benutzer/Monat (monatliche Abrechnung), 2250 Credits/Monat, erweiterte Funktionen, 500 GB Speicher.​
  • Unlimited: $95 pro Benutzer/Monat (monatliche Abrechnung), unbegrenzte Videogenerierungen, alle Funktionen enthalten.​
  • Quelle: https://runwayml.com/pricing

Aber auch die Möglichkeit „Runway for Educators“. Kann man sich anmelden, werde ich definitiv versuchen (man bekommt einmal 5.000 Credits)

Side note: Runway is incorporated into the design and filmmaking curriculums at UCLA, NYU, RISD, Harvard and countless other universities around the world. Request discounted resources to support your students.

Fazit: sieht an sich sehr vielversprechend aus, werde ich defintiv noch genauer testen,

werde eine Anfrage für Runway for Educators stellen

–> ebenfalls eine Überlegung wert ein Abo abzuschließen für den Zeitraum des Projekts, wird aber je nach Anwendung und nach Ergebnissen noch entschieden

(Quelle: https://runwayml.com )

Midjourney

Midjourney ist ein KI-gestützter Bildgenerator, der durch die Eingabe von Textbeschreibungen hochwertige und künstlerische Bilder erzeugt. Die Plattform ist bekannt für ihre Fähigkeit, lebendige und detaillierte Bilder zu erstellen, die den Nutzervorgaben entsprechen. Allerdings liegt der Fokus von Midjourney hauptsächlich auf der Bildgenerierung, und es bietet keine dedizierten Text-zu-Video-Funktionen.​

Preismodelle:

  • Basis: $10 pro Monat, begrenzte Nutzung.​
  • Standard: $30 pro Monat, erweiterte Nutzung.​
  • Pro: $60 pro Monat, unbegrenzte Nutzung.​

Fazit:

Kann allerdings gut mit den anderen beiden KI-Tools kombiniert werden, z.B. Bilderstellung mit Midjourney und „Animation/Bewegung“ in den anderen Programmen

+ an sich ein tolles KI-Tool, vor allem das feature, dass 4 Bilder generiert werden und man sich mit den Verweisen auf die Bilder beziehen kann, liefert tolle Ergebnisse

– an sich „komplizierter“ als andere KI-Tools dadurch, dass eine „gewisse Sprache“ bei den Prompts verwendet werden muss, macht aber sobald man es einmal verstanden hat keine großen Unterschied

(Quelle: https://www.midjourney.com/home https://www.victoriaweber.de/blog/midjourney )

Sora

Sora ist ein von OpenAI entwickeltes KI-Modell, das es ermöglicht, realistische Videos basierend auf Texteingaben zu erstellen.

–  Text-zu-Video-Generierung: Sora kann kurze Videoclips von bis zu 20 Sekunden Länge in verschiedenen Seitenverhältnissen (Querformat, Hochformat, quadratisch) erstellen. Nutzer können durch Texteingaben Szenen beschreiben, die dann von der KI in bewegte Bilder umgesetzt werden. ​OpenAI

–  Remix: Mit dieser Funktion können Elemente in bestehenden Videos ersetzt, entfernt oder neu interpretiert werden, um kreative Anpassungen vorzunehmen. ​

–  Re-Cut: Sora ermöglicht es, Videos neu zu schneiden und zu arrangieren, um alternative Versionen oder verbesserte Sequenzen zu erstellen. ​

Preismodell:

– Plus:
20$/Monat
includes the ability to explore your creativity through video
Up to 50 videos (1.000 credits)
Limited relaxed videos
Up to 720p resolution and 10s duration videos

– Pro
200$/Monat
includes unlimited generations and the highest resolution for high volume workflows
Up to 500 videos (10.000 credits)
Unlimited relaxed videos
Up to 1080p resolution and 20s duration videos

Fazit:

+ tolles Tool, intuitiveres Interface, vor allem sehr attraktiv, da ich bereits ein ChatGPT Plus Abo haben und im Vergleich zu Adobe kein zusätzliches Abo für die Grundfunktionen notwendig ist

+ ebenfalls inspirierend ist die Startseite, auf der viel Inspo und andere Videos zu sehen sind. Keines der anderes Tools war so aufgebaut und förderte so stark und schnell die Kreativität, vor allem sehr gut, da die Prompts immer angeben sind und einen Einblick geben, wie Prompts formuliert werden müssen um gute Ergebnisse zu erhalten

+ ebenfalls sehr gut gelöst, ist die Tutorial Section

(Quelle: https://sora.com/subscription )

GESAMTFAZIT:

Für meinen weiteren Forschungs- und Projektprozess werde ich die verschiedenen KI-gestützten Videotools weiterhin intensiv testen und ausgiebige Experimente durchführen.

Besonders positiv überrascht hat mich bisher Sora, da der Einstieg dank meines ChatGPT Plus-Abos äußerst unkompliziert war. Bei den anderen KI-Tools prüfe ich derzeit noch, welche Anbieter für meine Anforderungen am besten geeignet sind und ob sich ein Abonnement lohnt. Adobe und Runway stehen dabei aktuell ganz oben auf meiner Liste. Besonders bei Runway hoffe ich, ein Educator-Abo erhalten zu können, um das Tool im vollen Umfang nutzen zu können.