Ausgangslage
Für den ersten Prototyp meines Semesterprojekts verwende ich ein bereits bestehendes Video, das aus verschiedenen Drohnenflügen der letzten Jahre zusammengeschnitten wurde. Der Clip ist bewusst schnell geschnitten und kombiniert unterschiedliche Landschaftsaufnahmen in schneller Abfolge. Ziel des Experiments ist es, einen Teil dieser realen Aufnahmen durch KI-generierte Bilder zu ersetzen und anschließend zu überprüfen, ob der Unterschied für den Betrachter unmittelbar erkennbar ist.
Wichtig ist hierbei die Einschränkung, dass ausschließlich Landschaftsbilder verwendet werden. Aufnahmen mit Menschen werden bewusst vermieden, da dies sowohl den Generierungsprozess als auch die spätere Bewertung der Ergebnisse erheblich erleichtert.
Das Ziel dieses Prototyps ist es, die Grenzen zwischen realen Drohnenaufnahmen und KI-generiertem Footage auszutesten. Dazu ersetzte ich im Originalvideo einige der Drohnenszenen durch von HailuoAI und Sora erstellte Sequenzen.
Prototyp
Im ersten Schritt tauschte ich gezielt einzelne Drohnenshots durch die generierten B-Roll-Clips aus, wobei besonderes Augenmerk auf die Vergleichbarkeit gelegt wurde.
Der Fokus der Analyse liegt darauf, zu untersuchen, wie deutlich sich die KI-Bilder von den echten Aufnahmen unterscheiden, auch hinsichtlich der subjektiven Wahrnehmung durch die Betrachter:in.
Um dies zu überprüfen, werde ich im nächsten Schritt eine kleine Umfrage durchführen. Dabei werde ich ausgewählte Ausschnitte aus dem Video zeigen und die Teilnehmer:innen bitten, anzugeben, welche Szenen sie als real und welche sie als KI-generiert einschätzen.
Und hier das aktuelle Video mit KI-Teilen
Frage an sich selbst: Erkennt man die KI Parts deutlich?
Hier einen Ausschnitt des Original Videos:
Herangehensweise
Zu Beginn meines Versuchs wollte ich mit Hilfe eines Prompts ein Video eines schönen Sonnenuntergangs erstellen. Die erste Eingabe lautete:
„Drohnenflug, Sonnenuntergang, über den Wolken, schöne und cinematische Lichtstimmung, leichter Anstieg.“
Das Ergebnis entsprach jedoch nur bedingt meinen Vorstellungen. Zwar wurde ein Sonnenuntergang generiert, allerdings war in den meisten Clips die Drohne selbst im Bild zu sehen, was der angestrebten Ästhetik widersprach.
Um das Problem zu beheben, passte ich den Prompt an und ergänzte die Anweisung, dass die Drohne nicht sichtbar sein sollte:
„Drohnenflug (Drohne nicht im Bild), Sonnenuntergang, über den Wolken, schöne und cinematische Lichtstimmung, leichter Anstieg der Drohne im Bild.“
Trotz dieser genaueren Formulierung blieb das Resultat hinter den Erwartungen zurück. Die Drohne tauchte weiterhin in den generierten Videos auf, sogar sehr präsent im Bild.
Ein dritter Anlauf folgte mit einer leicht vereinfachten Formulierung:
„Drohnenflug (Drohne nicht im Bild), Sonnenuntergang, über den Wolken, schöne und cinematische Lichtstimmung.“
Doch auch dieser Versuch führte nicht zum gewünschten Ergebnis. Die KI interpretierte die Angaben nicht konsequent, sodass immer wieder Bildelemente auftauchten, die nicht der Vorstellung eines klaren, „drohnenlosen“ Himmelsflugs entsprachen.
Nach mehreren erfolglosen Prompt-Varianten entschied ich mich für eine alternative Herangehensweise: Anstatt nur mit Textvorgaben zu arbeiten, lud ich ein eigenes Ausgangsbild hoch. Dafür wählte ich jeweils den ersten Frame eines geeigneten Drohnenvideos.
Bei HailuoAI gibt es die Möglichkeit, auf Basis eines hochgeladenen Bildes einen kurzen Clip zu generieren. Zusätzlich kann man Anweisungen zur gewünschten Kamerabewegung formulieren. Diese Funktion nutzte ich gezielt, um die Bilddynamik nachzustellen, etwa durch einen sanften Anstieg oder einen leichten Schwenk, um den Eindruck eines realen Drohnenflugs zu verstärken.
Insgesamt funktionierte diese Methode deutlich besser als die reine Prompt-Eingabe. Die Resultate wirkten stimmiger und entsprachen eher der ursprünglichen Vision.
Natürlich gab es auch hier kleinere Fehler und Unstimmigkeiten, die sich nicht ganz vermeiden ließen. Ein „Best of“ der Fehlversuche.
Vergleich: Sora von OpenAI und HailuoAI
Zunächst plante ich, die Erstellung der KI-generierten B-Roll mit Sora von OpenAI umzusetzen. Sora versprach durch seine Text-to-Video-Technologie hochwertige Ergebnisse und schien zunächst eine vielversprechende Wahl zu sein. In der praktischen Anwendung zeigten sich jedoch einige Schwierigkeiten. Während der Generierungsversuche traten wiederholt Fehlermeldungen auf, die den Prozess unterbrachen oder komplett verhinderten. Zusätzlich kam es zu sehr langen Wartezeiten, und die Plattform machte oft keine klaren Angaben über die voraussichtliche Dauer der Erstellung.
Diese wiederholten Probleme führten schließlich dazu, dass ich mich intensiver nach Alternativen umschaute.
Nach eingehender Recherche (mehr dazu im 4. Blogpost) entschied ich mich, HailuoAI zu testen. Ein entscheidender Vorteil von HailuoAI war das flexible Preismodell. Nutzer erhalten beim Anlegen eines kostenlosen Kontos 1100 Credits, wobei die Generierung eines Videos 30 Credits kostet.