Product II: Image Extender

Dual-Model Vision Interface – OpenAI × Gemini Integration for Adaptive Image Understanding

Following the foundational phase of last week, where the OpenAI API Image Analyzer established a structured evaluation framework for multimodal image analysis, the project has now reached a significant new milestone. The second release integrates both OpenAI’s GPT-4.1-based vision models and Google’s Gemini (MediaPipe) inference pipeline into a unified, adaptive system inside the Image Extender environment.

Unified Recognition Interface

In The current version, the recognition logic has been completely refactored to support runtime model switching.
A dropdown-based control in Google Colab enables instant selection between:

  • Gemini (MediaPipe) – for efficient, on-device object detection and panning estimation
  • OpenAI (GPT-4.1 / GPT-4.1-mini) – for high-level semantic and compositional interpretation

Non-relevant parameters such as score threshold or delegate type dynamically hide when OpenAI mode is active, keeping the interface clean and focused. Switching back to Gemini restores all MediaPipe-related controls.
This creates a smooth dual-inference workflow where both engines can operate independently yet share the same image context and visualization logic.

Architecture Overview

The system is divided into two self-contained modules:

  1. Image Upload Block – handles external image input and maintains a global IMAGE_FILE reference for both inference paths.
  2. Recognition Block – manages model selection, executes inference, parses structured outputs, and handles visualization.

This modular split keeps the code reusable, reduces side effects between branches, and simplifies later expansion toward GUI-based or cloud-integrated applications.

OpenAI Integration

The OpenAI branch extends directly from Last week but now operates within the full environment.
It converts uploaded images into Base64 and sends a multimodal request to gpt-4.1 or gpt-4.1-mini.
The model returns a structured Python dictionary, typically using the following schema:

{

    “objects”: […],

    “scene_and_location”: […],

    “mood_and_composition”: […],

    “panning”: […]

}

A multi-stage parser (AST → JSON → fallback) ensures robustness even when GPT responses contain formatting artifacts.

Prompt Refinement

During development, testing revealed that the English prompt version initially returned empty dictionaries.
Investigation showed that overly strict phrasing (“exclusively as a Python dictionary”) caused the model to suppress uncertain outputs.
By softening this instruction to allow “reasonable guesses” and explicitly forbidding empty fields, the API responses became consistent and semantically rich.

Debugging the Visualization

A subtle logic bug was discovered in the visualization layer:
The post-processing code still referenced German dictionary keys (“objekte”, “szenerie_und_ort”, “stimmung_und_komposition”) from Last week.
Since the new English prompt returned English keys (“objects”, “scene_and_location”, etc.), these lookups produced empty lists, which in turn broke the overlay rendering loop.
After harmonizing key references to support both language variants, the visualization resumed normal operation.

Cross-Model Visualization and Validation

A unified visualization layer now overlays results from either model directly onto the source image.
In OpenAI mode, the “panning” values from GPT’s response are projected as vertical lines with object labels.
This provides immediate visual confirmation that the model’s spatial reasoning aligns with the actual object layout, an important diagnostic step for evaluating AI-based perception accuracy.

Outcome and Next Steps

The project now represents a dual-model visual intelligence system, capable of using symbolic AI interpretation (OpenAI) and local pixel-based detection (Gemini).

Next steps

The upcoming development cycle will focus on connecting the openAI API layer directly with the Image Extender’s audio search and fallback system.

Product I: Image Extender

OpenAI API Image Analyzer – Structured Vision Testing and Model Insights

Adaptive Visual Understanding Framework
In this development phase, the focus was placed on building a robust evaluation framework for OpenAI’s multimodal models (GPT-4.1 and GPT-4.1-mini). The primary goal: systematically testing image interpretation, object detection, and contextual scene recognition while maintaining controlled cost efficiency and analytical depth.

upload of image (image source: https://www.trumau.at/)
  1. Combined Request Architecture
    Unlike traditional multi-call pipelines, the new setup consolidates image and text interpretation into a single API request. This streamlined design prevents token overhead and ensures synchronized contextual understanding between categories. Each inference returns a structured Python dictionary containing three distinct analytical branches:
    • Objects – Recognizable entities such as animals, items, or people
    • Scene and Location Estimation – Environment, lighting, and potential geographic cues
    • Mood and Composition – Aesthetic interpretation, visual tone, and framing principles

For each uploaded image, the analyzer prints three distinct lists per modelside by side. This offers a straightforward way to assess interpretive differences without complex metrics. In practice, GPT-4.1 tends to deliver slightly more nuanced emotional and compositional insights, while GPT-4.1-mini prioritizes concise, high-confidence object recognition.

results of the image object analysis and model comparison

Through the unified format, post-processing can directly populate separate lists or database tables for subsequent benchmarking, minimizing parsing latency and data inconsistencies.

  1. Robust Output Parsing
    Because model responses occasionally include Markdown code blocks (e.g., python {…}), the parsing logic was redesigned with a multi-layered interpreter using regex sanitation and dual parsing strategies (AST > JSON > fallback). This guarantees that even irregularly formatted outputs are safely converted into structured datasets without manual intervention. The system thus sustains analytical integrity under diverse prompt conditions.
  2. Model Benchmarking: GPT-4.1-mini vs. GPT-4.1
    The benchmark test compared inference precision, descriptive richness, and token efficiency between the two models. While GPT-4.1 demonstrates deeper contextual inference and subtler mood detection, GPT-4.1-mini achieves near-equivalent recognition accuracy at approximately one-tenth of the cost per request. For large-scale experiments (e.g., datasets exceeding 10,000 images), GPT-4.1-mini provides the optimal balance between granularity and economic viability.
  3. Token Management and Budget Simulation
    A real-time token tracker revealed an average consumption of ~1,780 tokens per image request. Given GPT-4.1-mini’s rate of $0.003 / 1k tokens, a one-dollar operational budget supports roughly 187 full image analyses. This insight forms the baseline for scalable experimentation and budget-controlled automation workflows in cloud-based vision analytics.

The next development phase will integrate this OpenAI-driven visual analysis directly into the Image Extender environment. This integration marks the transition from isolated model testing toward a unified generative framework.

Erste Testungen: Adobe Firefly Video Model und Sora

Testphase: Visuelle und animierte Elemente mit KI gestalten

Um herauszufinden, wie präzise und leistungsfähig aktuelle KI-Tools im kreativen Gestaltungsprozess sind, habe ich zwei vielversprechende Anwendungen getestet: das Adobe Firefly Video Model sowie Sora von OpenAI. Beide kamen im Rahmen der Entwicklung eines Plakats für eine Veranstaltungsreihe zum Einsatz – mit dem Ziel, sowohl ein visuell ansprechendes Grundmotiv als auch eine subtile, animierte Variante zu erzeugen.

Ausgangslage
Für das statische Design des Plakats wurde zunächst die generative KI in Adobe Photoshop genutzt. Ziel war es, ein Hintergrundmuster zu erstellen, das sich stilistisch harmonisch in die Serie der bereits bestehenden Plakate einfügt. Dabei war wichtig, dass das visuelle Erscheinungsbild – insbesondere die Farbwelt und grafische Struktur – konsistent bleibt, aber dennoch ein eigenständiges Muster aufweist.

Der verwendete Prompt in Photoshop lautete:
„blaue Farben, feine Linien, Stil ähnlich, aber anderes Muster“

Nach einigen Variationen und Anpassungen wurde ein Ergebnis generiert, das sowohl ästhetisch als auch kontextuell gut zum bestehenden Designkonzept passt.

Im nächsten Schritt ging es darum, das statische Motiv dezent zu animieren, um für Social Media eine lebendige, aber nicht aufdringliche Version zu erzeugen. Der Fokus lag auf einer subtilen Bewegung der Linienstruktur, die dem Plakat eine zusätzliche visuelle Tiefe verleihen sollte, ohne den Charakter der Gestaltung zu verändern.

Zur Umsetzung dieser Animation wurden zwei KI-Video-Tools getestet:

  • Adobe Firefly Video Model
  • Sora von OpenAI

In den folgenden Abschnitten werden die jeweilige Vorgehensweise, die generierten Ergebnisse sowie der direkte Vergleich der Tools erläutert.

Adobe Firefly Video Model:

Hier kam das „Bild-zu-Video“-Tool zum Einsatz. Das Hintergrund Bild wurde als Frame hochgeladen, das Videoformat auch Hochformat 9:16 gestellt. Bei Kamera und Kamerabewegung wurde keine Auswahl getroffen. 

Der Prompt lautete: very slow movement; flowy liquid; lines glow in the dark; move very slow; slimy; flowy, liquid close up

Das erste generierte Ergebnis:

  • An sich tolles Ergebnis
  • Linien bewegen sich relativ schnell aber kontinuierlich
  • Lichtpunkte in den Linien nicht ganz optimal
  •  Fällt zum Schluss in der rechten unteren Ecke sehr ab

Da ich noch nicht zu 100% happy war, generierte ich mit den gleichen Einstellungen und dem identen Prompt eine weitere Version, die schlussendlich die finale Fassung des Plakats wurde:

  • Dynamisches Movement, ohne dass ein Teil „wegfällt“
  • Linien leuchten in sich und nicht nur an gewissen punkten
  • Sehr zufrieden mit dem Ergebnis

An sich war ich an diesem Punkt sehr zufrieden, aber dennoch wäre es aus Sicht der Designer:in gut gewesen, noch eine Version, auch eventuell in einem anderen Stil und anderem Movement auszuprobieren. Doch nach dem zweiten Video war leider die Obergrenze der gratis Videos erreicht. 

Pro:
+ schönes Movement
+ auf Anhieb gute Versionen, die dem Visuellen Anspruch gerecht wurden 
+ sehr einfach Anwendung

Con:
– auf 5 Sekunden limitiert, stellt schon eine große Schwierigkeit in der Verwendung des Videos dar
– die Qualität war nicht zu 100% überzeugend
– leider nach 2 Versionen gratis Versuche aus, keine Möglichkeit außer eines Abo-Abschlusses

Sora by OpenAI

Aufgrund meines ChatGPTs Abos war es mir möglich als zweite Version ein KI-Video von Sora generieren zu lassen. Ebenfalls kam das “Bild-zu-Video”-Tool zum Einsatz. Das Hintergrund Bild wurde als Frame hochgeladen, das Videoformat auf 1:1, 480p, auf 5 Sekunden und auf eine Version gestellt. Hier wäre es an sich möglich, die Dauer des Clips auf 10 Sekunden zu erhöhen, um aber vor allem bei den ersten Versuchen nicht zu viele Credits zu verbrauchen, wählte ich hier ebenfalls die 5 Sekunden. Ebenfalls gibt es in Sora die Möglichkeit ein Storyboard hochzuladen. Generell sind die Möglichkeiten bei diesem Tool großer als bei Adobe Firefly.

Der Prompt lautete gleich wie bei Adobe FireFly: very slow movement; flowy liquid; lines glow in the dark; move very slow; slimy; flowy, liquid close up

Das Ergebnis:

An auch ein sehr großartiges Ergebnis, mit vielen Möglichkeiten, um nachzuschärfen und genau das zu erreichen, das man möchte. Dieses Video „kostete“ 20 Credits.

Pro:
+ länger als 5 Sekunden möglich
+ viele Möglichkeiten der Bearbeitung wie z.B. Remix, Blend oder Loop (siehe Bild)


Con:
– optisch nicht ganz so akkurat wie Adobe Firefly, wirkt so als würde Sora ein eigenes Muster erschaffen und nicht direkt mit dem Bild, das hochgeladen wurde arbeiten (würde sich aber auf jeden Fall durch weiter Prompts und Schleifen ändern und präzisieren lassen)

Fazit:

Sowohl Adobe Firefly als auch Sora von OpenAI haben in meinen Tests visuell beeindruckende Ergebnisse geliefert. Die generierten Inhalte überzeugen durch eine bemerkenswerte Bildqualität, kreative Umsetzung und überraschend hohe Präzision in der Darstellung der Texteingaben.

Wie bereits zuvor erwähnt, bringen beide Tools jeweils ihre individuellen Stärken und Schwächen mit. Insgesamt bieten beide Plattformen spannende Möglichkeiten im Bereich der KI-gestützten Visualisierung. Eine endgültige Bewertung hängt daher stark vom jeweiligen Anwendungsfall und den individuellen Anforderungen ab. In diesem Fall fiel die Wahl auf das Video von Adobe Firefly weil das Ergebnis besser zur Stimmung und Anwendungsfall passt. Dennoch war ich sehr positiv von Sora begeistert und würde für die nächsten KI-Videos definitiv darauf zurückgreifen.