Sound Design – Page 5

by angelo.jantscher - 24. January 2026

MA: #9 Designing for Personal Memories: Past, Present, and Future

Erinnerungen sind keine statischen Daten. Sie sind lebendig, wandelbar und tief mit unserem Alltag verwoben. Genau mit diesem Verständnis setzen Elise van den Hoven, Corina Sas und Steve Whittaker in ihrem Artikel Designing for Personal Memories: Past, Present, and Future an. Statt Erinnerungen nur als Inhalte zu betrachten, fragen sie:
Wie können interaktive Systeme Erinnerungen über Zeit hinweg sinnvoll unterstützen?

Der Artikel unterscheidet drei zeitliche Perspektiven auf Erinnerungen: Vergangenheit, Gegenwart und Zukunft. Diese Einteilung wirkt zunächst einfach, eröffnet aber einen wichtigen Blick auf das Zusammenspiel von Mensch, Objekt und Zeit.

Die Vergangenheit betrifft gespeicherte Erinnerungen: Fotos, Videos, Texte, Objekte. Klassische Designlösungen konzentrieren sich häufig genau darauf – auf das Sammeln und Archivieren. Doch die Autor:innen machen deutlich, dass Erinnerung nicht allein durch Speicherung entsteht. Ein Foto ist noch keine Erinnerung, sondern nur ein Auslöser.

Die Gegenwart spielt eine entscheidende Rolle, weil Erinnerungen hier aktiv erlebt werden. Sie entstehen im Alltag, oft beiläufig. Van den Hoven, Sas und Whittaker betonen, dass Design Erinnerungen nicht nur im Nachhinein unterstützen sollte, sondern bereits während ihres Entstehens. Wie wird ein Moment erlebt? Wie bewusst wird er wahrgenommen? Gestaltung kann hier helfen, Aufmerksamkeit zu lenken – oder auch bewusst zurückhaltend zu sein.

Die Zukunft schließlich betrifft die Frage, wie Erinnerungen später wieder aufgerufen werden. Dabei geht es nicht nur um Zugänglichkeit, sondern um Kontext. Erinnerungen brauchen Anknüpfungspunkte: Orte, Handlungen, Rituale. Ohne diese bleiben gespeicherte Inhalte oft ungenutzt.

Ein zentraler Gedanke des Artikels ist, dass Erinnerungen nicht isoliert existieren. Sie sind eingebettet in Beziehungen, Routinen und Objekte. Besonders interessant ist dabei die Rolle materieller Dinge. Physische Objekte fungieren als sogenannte memory cues – sie lösen Erinnerungen aus, ohne sie festzuschreiben. Ihre Bedeutung liegt weniger im Objekt selbst als in der Handlung, die mit ihm verbunden ist.

Für den Entwurf von Erinnerungsobjekten oder -systemen bedeutet das: Es reicht nicht, Inhalte bereitzustellen. Entscheidend ist die Gestaltung der Interaktion. Wann wird erinnert? Wie freiwillig geschieht es? Und wie viel Raum bleibt für Interpretation?

Gerade im Kontext von Trauer und Verlust ist dieser Ansatz besonders relevant. Erinnerungen an verstorbene Menschen verändern sich über Zeit. Ein gutes Design akzeptiert diese Veränderung, statt sie zu verhindern. Es lässt zu, dass Erinnerungen verblassen, sich neu zusammensetzen oder an Bedeutung gewinnen.

Der Artikel plädiert letztlich für eine Gestaltung, die Erinnerungen nicht kontrolliert, sondern begleitet. Für Systeme, die offen, anpassbar und langfristig gedacht sind. Erinnerung wird hier nicht als Problem verstanden, das gelöst werden muss – sondern als menschlicher Prozess, der Unterstützung verdient.

by angelo.jantscher - 24. January 2026

MA: #8 Emotional Design

Warum hängen wir an bestimmten Dingen, obwohl sie objektiv betrachtet nichts Besonderes sind? Warum behalten wir ein altes, zerkratztes Objekt, obwohl es längst eine funktional bessere Alternative gibt? Und warum können uns andere Produkte schon nach wenigen Minuten frustrieren – obwohl sie technisch perfekt funktionieren?

Mit genau diesen Fragen beschäftigt sich Emotional Design: Why We Love (or Hate) Everyday Things von Don Norman. Das Buch macht deutlich: Gute Gestaltung endet nicht bei Funktion oder Ästhetik. Sie beginnt dort, wo Emotionen ins Spiel kommen.

Norman unterscheidet drei Ebenen, auf denen wir Produkte wahrnehmen: die viszerale, die behaviorale und die reflektive Ebene. Die viszerale Ebene ist der erste Eindruck – das Bauchgefühl. Gefällt mir das Objekt? Fühlt es sich gut an? Wir reagieren hier oft unbewusst. Materialien, Farben, Formen spielen eine zentrale Rolle.

Die behaviorale Ebene betrifft die Nutzung. Funktioniert das Produkt? Ist es verständlich? Macht es, was ich erwarte? Viele Designprobleme entstehen genau hier: Wenn etwas gut aussieht, aber im Alltag nervt. Oder wenn ein Produkt zwar logisch ist, sich aber „falsch“ anfühlt.

Die reflektive Ebene schließlich ist die persönlichste. Sie betrifft Bedeutung, Erinnerung und Identität. Warum ist mir dieses Objekt wichtig? Was sagt es über mich aus? Welche Geschichte verbinde ich damit?

Gerade diese dritte Ebene ist entscheidend, wenn es um emotionale Bindung geht. Wir lieben Dinge nicht, weil sie perfekt sind – sondern weil sie Teil unserer Geschichte werden. Ein Kratzer erinnert an einen Moment. Ein Makel macht ein Objekt einzigartig. Emotionen entstehen nicht trotz Unvollkommenheit, sondern oft genau wegen ihr.

Im Kontext von Trauer und Erinnerung wird Emotional Design besonders relevant. Ein Erinnerungsobjekt muss nicht effizient sein. Es muss nicht schnell oder multifunktional sein. Viel wichtiger ist, dass es sich richtig anfühlt. Dass es Nähe zulässt. Dass es keine Angst macht.

by angelo.jantscher - 24. January 2026

MA: #7 Swedish Death Cleaning

Der Begriff Swedish Death Cleaning klingt im ersten Moment drastischer, als er ist. Tatsächlich geht es dabei weniger um den Tod selbst als um das Leben davor – und um Verantwortung. In Schweden ist diese Praxis als Döstädning bekannt und beschreibt das bewusste Aufräumen und Reduzieren des eigenen Besitzes mit dem Gedanken, Angehörige nach dem eigenen Tod nicht zu belasten.

Bekannt wurde das Konzept vor allem durch das Buch „The Gentle Art of Swedish Death Cleaning“ von Margareta Magnusson. Darin beschreibt sie Döstädning nicht als traurige Pflicht, sondern als ruhigen, fast befreienden Prozess. Es geht nicht darum, alles loszuwerden – sondern bewusst zu entscheiden, was bleiben darf.

Was dieses Konzept so spannend macht, ist seine Haltung zur Erinnerung. Denn Swedish Death Cleaning bedeutet nicht, Erinnerungen zu löschen. Im Gegenteil: Es fordert dazu auf, sich aktiv mit ihnen auseinanderzusetzen. Jedes Objekt wird hinterfragt: Warum habe ich das? Welche Geschichte hängt daran? Und für wen könnte es nach mir eine Bedeutung haben?

Viele Gegenstände, die wir besitzen, tragen Erinnerungen – aber nicht alle sind gleich wertvoll. Manche bewahren wir aus Gewohnheit, andere aus Schuldgefühl. Swedish Death Cleaning erlaubt, genau hier ehrlich zu sein. Nicht alles muss weitergegeben werden. Nicht alles muss bewahrt werden.

Interessant ist dabei der Perspektivwechsel: Statt aus der eigenen emotionalen Bindung heraus zu entscheiden, wird die Sicht der Hinterbliebenen mitgedacht. Was bedeutet dieser Gegenstand für jemand anderen? Ist er eine Bereicherung – oder eine Belastung?

Gerade im Kontext von Trauer wird oft deutlich, wie schwierig diese Frage ist. Nach einem Todesfall stehen Angehörige häufig vor Bergen von Dingen. Zwischen Dokumenten, Alltagsgegenständen und persönlichen Erinnerungsstücken müssen Entscheidungen getroffen werden – oft in einer emotionalen Ausnahmesituation. Swedish Death Cleaning versucht, diese Last vorwegzunehmen

by David Adlberger - 18. January 2026

Product X: Image Extender

Extending the System from Image Interpretation to Image Synthesis

This update marked a conceptual shift in the system’s scope: until now, images functioned purely as inputs, sources of visual information to be analyzed, interpreted, and mapped onto sound. With this iteration, I expanded the system to also support image generation, enabling users not only to upload visual material but to synthesize it directly within the same creative loop.

The goal was not to bolt on image generation as a novelty feature, but to integrate it in a way that respects the system’s broader design philosophy: user intent first, semantic coherence second, and automation as a supportive, not dominant, layer.

Architectural Separation: Reasoning vs. Rendering

A key early decision was to separate prompt reasoning from image rendering. Rather than sending raw user input directly to the image model, I introduced a two-stage pipeline:

Prompt Interpretation & Enrichment (GPT-4.1)
Responsible for understanding vague or underspecified user prompts and rewriting them into a semantically complete, realistic scene description.
Image Synthesis (gpt-image-1 → DALL-E 2/3)
Dedicated purely to rendering the final image from the enriched prompt. Through implementation, I discovered that while the original spec referenced gpt-image-1, OpenAI’s actual models are DALL-E 2 (60% cheaper, faster, but less detailed) and DALL-E 3 (higher quality but more expensive).

This separation mirrors the system’s audio architecture, where semantic interpretation and signal processing are deliberately decoupled. GPT-4.1 acts as a semantic mediator, while the image model remains a deterministic renderer.

The Response Format Learning Curve

During implementation, I encountered a subtle but important API nuance that forced a deeper understanding of the system’s data flow: DALL-E models return URLs by default, not base64 data. The initial implementation failed with a confusing “NoneType” error because I was trying to decode a base64 field that didn’t exist.

The fix was elegantly simple, adding response_format=”b64_json” to the API call—but the debugging process revealed something more fundamental about API design: different services have different default behaviors, and understanding those defaults is crucial for robust system integration.

This also led to implementing proper fallback logic: if base64 isn’t available, the system gracefully falls back to downloading from the image URL, ensuring reliability across different OpenAI model versions and configurations.

Interactive Workflow Integration with Toggle Architecture

To maintain consistency with the existing interactive toolset while adding flexibility, I implemented a mode-toggle architecture:

Upload Mode: Traditional file upload with drag-and-drop support
Generate Mode: Text-to-image synthesis with prompt enrichment
State Preservation: The system maintains a single IMAGE_FILE variable that can be overwritten by either mode, ensuring seamless transitions between workflows

The interface exposes this through clean toggle buttons, showing only the relevant UI for each mode. This reduces cognitive load while preserving full functionality, a principle I’ve maintained throughout the system’s evolution.

Cost-Aware Design with Caching and Model Selection

Image synthesis presents unique cost challenges compared to text generation or audio processing. I implemented several cost-mitigation strategies learned through experimentation:

Resolution Control: Defaulting to 1024×1024 or 512×512 (for DALL-E 2)
Quality Parameter Awareness: Only DALL-E 3 supports quality=”standard” vs “hd”—using the wrong parameter with DALL-E 2 causes API errors

The cost considerations weren’t just about saving money—they were about enabling iteration. When artists can generate dozens of variations without financial anxiety, they explore more freely. The system defaults to the cheapest viable path, with quality controls available but not forced.

Prompt Realism as a Soft Constraint

Rather than enforcing hard validation rules (e.g., predefined lists of places or objects), I chose to treat realism as a soft constraint enforced by language, not logic.

User prompts are passed through a prompt-enrichment step where GPT-4.1 is instructed to:

Reframe the input as a photographic scene
Ensure the presence of spatial context (location, environment)
Ground the description in physical objects and lighting
Explicitly avoid illustrated, cartoon, or painterly styles

This approach preserves creative freedom while ensuring that the downstream image generation remains visually coherent and photo-realistic. Importantly, the system does not reject user input—it interprets it.

Design Philosophy: Generation as a First-Class Input

What this update ultimately enabled is a shift in how the system can be used:

Images are no longer just analyzed artifacts
They can now be constructed, refined, and immediately fed into downstream processes (visual analysis, audio mapping, spatial inference)

This closes a loop that previously required external tools. The system now supports a full cycle: imagine → generate → interpret → sonify.

Crucially, the same principle that guided earlier updates still applies: automation should amplify intent, not replace it. Image generation here is not about producing spectacle, but about giving users a controlled, semantically grounded way to define the visual worlds their soundscapes respond to.

The implementation journeyfrom API quirks to cost optimization to user experience design, reinforced that even “simple” features require deep consideration when integrating into a complex creative system. Each new capability should feel like it was always there, waiting to be discovered.

by David Adlberger - 11. January 2026

Product IX: Image Extender

Moving Beyond Dry Audio to Spatially Intelligent Soundscapes

My primary objective for this update was to bridge a critical perceptual gap in the system: while the previous iterations successfully mapped visual information to sonic elements with precise panning and temporal placement, the resulting audio mix remained perceptually “dry” and disconnected from the image’s implied acoustic environment. This update introduces adaptive reverberation, not as a cosmetic effect, but as a semantically grounded spatialization layer that transforms discrete sound objects into a coherent, immersive acoustic scene.

System Architecture

The existing interactive DAW interface, with its per-track volume controls, sound replacement engine, and user feedback mechanisms, was extended with a comprehensive spatial audio processing module. This module interprets the reverb parameters derived from image analysis (room detection, size estimation, material damping, and spatial width) and provides interactive control over their application.

Global Parameter State & Data Flow Integration

A crucial architectural challenge was maintaining separation between the raw audio mix (user-adjustable volume levels) and the reverb-processed version. I implemented a dual-state system with:

current_mix_raw: The continuously updated sum of all audio tracks with current volume slider adjustments.
current_mix_with_reverb: A cached, processed version with reverberation applied, recalculated only when reverb parameters change or volume sliders are adjusted with reverb enabled.

This separation preserves processing efficiency while maintaining real-time responsiveness. The system automatically pulls reverb parameters (room_size, damping, wet_level, width) from the image analysis block when available, providing image-informed defaults while allowing full manual override.

Pedalboard-Based Reverb Engine

I integrated the pedalboard audio processing library to implement professional-grade reverberation. The engine operates through a transparent conversion chain:

Format Conversion: AudioSegment objects (from pydub) are converted to NumPy arrays normalized to the [-1, 1] range
Pedalboard Processing: A Reverb effect instance applies parameters with real-time adjustable controls
Format Restoration: Processed audio is converted back to AudioSegment while preserving sample rate and channel configuration

The implementation supports both mono and stereo processing chains, maintaining compatibility with the existing panning system.

Interactive Reverb Control Interface

A dedicated control panel was added to the DAW interface, featuring:

Parameter Sliders: Four continuous controls for room size, damping, wet/dry mix, and stereo width, pre-populated with image-derived values when available
Toggle System: Three distinct interaction modes:
1. “🔄 Apply Reverb”: Manual application with current settings
2. “🔇 Remove Reverb”: Return to dry mix
3. “Reverb ON/OFF Toggle”: Single-click switching between states
Contextual Feedback: Display of image-based room detection status (indoor/outdoor)

Seamless Playback Integration

The playback system was redesigned to dynamically switch between dry and wet mixes:

Intelligent Routing: The play_mix() function automatically selects current_mix_with_reverb or current_mix_raw based on the reverb_enabled flag
State-Aware Processing: When volume sliders are adjusted with reverb enabled, the system automatically reapplies reverberation to the updated mix, maintaining perceptual consistency
Export Differentiation: Final mixes are exported with _with_reverb or _raw suffixes, providing clear version control

Design Philosophy: Transparency Over Automation

This phase reinforced a critical design principle: spatial effects should enhance rather than obscure the user’s creative decisions. Several automation approaches were considered and rejected:

Automatic Reverb Application: While the system could automatically apply image-derived reverb, I preserved manual activation to maintain user agency
Dynamic Parameter Adjustment: Real-time modification of reverb parameters during playback was technically feasible but introduced perceptual confusion
Per-Track Reverb: Individual reverberation for each sound object would create acoustic chaos rather than coherent space

The decision was made to implement reverb as a master bus effect, applied consistently to the entire mix after individual track processing. This approach creates a unified acoustic space that respects the visual scene’s implied environment while preserving the clarity of individual sound elements.

Technical Challenges & Solutions

State Synchronization

The most significant challenge was maintaining synchronization between the constantly updating volume-adjusted mix and the computationally expensive reverb processing. The solution was a conditional caching system: reverb is only recalculated when parameters change or when volume adjustments occur with reverb active.

Format Compatibility

Bridging the pydub-based mixing system with pedalboard‘s NumPy-based processing required careful attention to sample format conversion, channel configuration, and normalization. The implementation maintains bit-perfect round-trip conversion.

by David Adlberger - 30. December 2025

Product VIII: Image Extender

Iterative Workflow and Feedback Mechanism

The primary objective for this update was to architect a paradigm shift from a linear generative pipeline to a nonlinear, interactive sound design environment

System Architecture & Implementation of Interactive Components

The existing pipeline, comprising image analysis (object detection, semantic tagging), importance-weighted sound search, audio processing (equalization, normalization, panoramic distribution based on visual coordinates), and temporal randomization was extended with a state-preserving session layer and an interactive control interface, implemented within the collab notebook ecosystem.

Data Structure & State Management
A critical prerequisite for interactivity was the preservation of all intermediate audio objects and their associated metadata. The system was refactored to maintain a global, mutable data structure, a list of processed_track objects. Each object encapsulates:

The raw audio waveform (as a NumPy array).
Semantic source tag (e.g., “car,” “rain”).
Track type (ambience base or foreground object).
Temporal onset and duration within the mix.
Panning coefficient (derived from image x-coordinate).
Initial target loudness (LUFS, derived from object importance scaling).

Dynamic Mixing Console Interface
A GUI panel was generated post-sonification, featuring the following interactive widgets for each processed_track:

Per-Track Gain Sliders: Linear potentiometers (range 0.0 to 2.0) controlling amplitude multiplication. Adjustment triggers an immediate recalculation of the output sum via a create_current_mix() function, which performs a weighted summation of all tracks based on the current slider states.
Play/Stop Controls: Buttons invoking a non-blocking, threaded audio playback engine (using IPython.display.Audio and threading), allowing for real-time auditioning without interface latency.

On-Demand Sound Replacement Engine
The most significant functional addition is the per-track “Search & Replace” capability. Each track’s GUI includes a dedicated search button (🔍). Its event handler executes the following algorithm:

Tag Identification: Retrieves the original semantic tag from the target processed_track.
Targeted Audio Retrieval: Calls a modified search_new_sound_for_tag(tag, exclude_id_list) function. This function re-executes the original search logic, including query formulation, Freesound API calls, descriptor validation (e.g., excluding excessively long or short files), and fallback strategies—while maintaining a session-specific exclusion list to avoid re-selecting previously used sounds.
Consistent Processing: The newly retrieved audio file undergoes an identical processing chain as in the initial pipeline: target loudness normalization (to the original track’s LUFS target), application of the same panning coefficient, and insertion at the identical temporal position.
State Update & Mix Regeneration: The new audio data replaces the old waveform in the processed_track object. The create_current_mix() function is invoked, seamlessly integrating the new sonic element while preserving all other user adjustments (e.g., volume levels of other tracks).

Integrated Feedback & Evaluation Module
To formalize user evaluation and gather data for continuous system improvement, a structured feedback panel was integrated adjacent to the mixing controls. This panel captures:

A subjective 5-point Likert scale rating.
Unstructured textual feedback.
Automated attachment of complete session metadata (input image description, derived tags, importance values, processing parameters, and the final processed_track list).
This design explicitly closes the feedback loop, treating each user interaction as a potential training or validation datum for future algorithmic refinements.
Automated sending of the feedback via email

by David Adlberger - 15. December 2025

Product VII: Image Extender

Room-Aware Mixing – From Image Analysis to Coherent Acoustic Spaces

Instead of attempting to recover exact physical properties, the system derives normalized, perceptual room parameters from visual cues such as geometry, materials, furnishing density, and openness. These parameters are intentionally abstracted to work with algorithmic reverbs.

The introduced parameters are:

room_detected (bool)
Indicates whether the image depicts a closed indoor space or an outdoor/open environment.
room_size (0.0–1.0)
Represents the perceived acoustic size of the room (small rooms → short decay, large spaces → long decay).
damping (0.0–1.0)
Estimates high-frequency absorption based on visible materials (soft furnishings, carpets, curtains vs. glass and hard walls).
wet_level (0.0–1.0)
Describes how reverberant the space naturally feels.
width (0.0–1.0)
Estimates perceived stereo width derived from room proportions and openness.

All parameters are stored flat within the same dictionary as objects, panning, and importance values, forming a single coherent scene representation.

Dereverberation: Explored, Then Intentionally Abandoned

As part of this phase, automatic analysis of existing reverberation (RT60, DRR estimation) and dereverberation was evaluated.

The outcome:

Computationally expensive, especially in Google Colab
Inconsistent and often unsatisfactory audio results
High complexity with limited practical benefit

Decision:
Dereverberation is not pursued further in this project. Instead, the system relies on:

Consistent room estimation
Controlled, unified reverb application
Preventive design rather than corrective processing

The next step will be to focus on the analysis of the sounds (especially rt60 and drr values) to make the reverb (if its a closed room) less on the specific sound.

by dominik.bluemel - 11. December 2025

03.06.: Das 1×1 des Gaffers

Nach einer genaueren Einführung wie man Licht eigentlich misst und was eine gute Belichtung ausmacht, möchte ich mich in diesem Blogpost genauer mit dem Equipment beschäftigen, das auf Filmsets genutzt wird. Dies hilft mir später auch das richtige Equipment für meinen Kurzfilm auszuwählen. Außerdem enthält dieser Blogpost einen kurzen Exkurs in die physikalischen Eigenschaften von Licht.

Lichtquellen

Phil Rhodes teilt Lichtquellen in Tageslicht, Licht aus Glühbirnen (Incandescent), Leuchtstofflampen (bei uns oft fälschlicherweise Neonlampen genannt), Lichtogenlampen (HMI, CMH, Plasma, Xenon) und LED´s ein. Jedem dieser Lichtquellen widme ich nun eine kleine Erklärung.

Tageslicht

Temperatur, Intensität und Qualität von Tageslicht hängt von vielen Faktoren ab, wie Wetter, Uhrzeit, Ort und Seehöhe. Grundsätzlich lässt sich aber definieren, dass Tageslicht an einem wolkenlosen Tag sehr hart und viel stärker als das Umgebungslicht des restlichen Himmels ist. Daraus ergeben sich kantige Schatten und ein Key-to-Fill Ratio von etwa 7:1. An bewölkten Tagen verhalten sich die Wolken wie eine riesige Softbox und erzeugen damit verbunden auch eine fast schattenlose, durchgehende Ausleuchtung. Tageslicht besteht außerdem aus dem vollen Spektrum an sichtbarem Licht, was viele Vorteile bietet.

Exkurs Metamerismus:

Das sichtbare Licht besteht aus verschiedenen Lichtwellen mit unterschiedlicher Wellenlänge. Die Wellenlänge bestimmt dabei in welcher Farbe ein Licht wahrgenommen wird. Natürliches Licht wie Sonnenlicht enthält alle Farben des Spektrums, die dann gemeinsam als weiß wahrgenommen werden. Dies ist aber nicht zwingend nötig. Technische Geräte nutzen ja oft nur drei Farben – Rot, Grün und Blau – und können durch Mischung dieser genauso weiß aussehen. Solche Farben, die für das menschliche Auge gleich aussehen, aber durch Mischung unterschiedlicher Farben entstanden sind, nennt man metamer. Das Problem dabei ist, dass Kamerasensoren aber nicht gleich funktionieren wie das Auge. Stellt man eine Farbe mit einem unvollständigen Spektrum dar, also zum Beispiel nur mit Rot, Grün und Blau, besteht die Gefahr, dass ein Kamerasensor etwa sensitiver auf Grün ist als auf Blau, ein anderer vielleicht umgekehrt. Währen die Farben dann also für den Menschen gleich aussehen, werden sie in den Kameras verschieden aufgezeichnet. Deshalb ist die Farbqualität bei einem vollen Spektrum immer besser als bei einem unvollständigen. Als Faustregel kann man Festhalten, dass jegliche Arten von natürlichem Licht meist ein volleres Spektrum haben als künstliches.¹

Glühbirnen

Glühbirnen sind eine der ältesten Formen von Lichtquellen, die aber bis heute bestehen. Da in einer Glühbirne Metall durch Erhitzung zu “verbrennen” beginnt, hat das Licht, das dabei abgesondert wird, einer sehr hohe Qualität, jedoch wird viel von der Energie am Ende nur als Hitze abgesondert. Klassische Glühbirnen, in denen Halogen als Gas enthalten ist, um zu verhindern, dass der Draht wirklich durchbrennt, haben fast alle die gleiche Farbtemperatur: 3200 Kelvin. Damit sind sie sehr warm (oft Tungsten genannt).

Leuchtstoffröhren

Das Licht aus Leuchtstoffröhren ist in seiner Qualität zwar bei weitem nicht mit Glühbirnen und Tageslicht zu vergleichen, hat aber andere Vorteile. So zum Beispiel, dass es automatisch weicher ist. Außerdem entsteht nicht so viel Hitze und die Energie wird besser in Licht umgesetzt.

Lichtbogenlampen (HMI, CMH etc.)

Lichtbogenlampen funktionieren in der Hinsicht ähnlich wie Glühbirnen, als dass in einem abgeschlossenen Raum durch elektrische Spannung etwas zum Glühen gebracht wird. Während das bei klassischen Glühbirnen meist ein Wolfram-Draht ist, sind es bei Lichtbogenlampen meist Gase, die man mit einem Hochspannungsblitz quasi aufwärmt und dann unter Dauerstrom zum Leiten und damit zum Leuchten bringt. Die bekanntesten sind HMI Lampen, die mit Quecksilberdampf funktioniert. Der Vorteil gegenüber klassischen Glühbirnen, liegt in der viel größeren Lichtausbeute. Außerdem sondern die Gase automatisch ein Licht mit etwa 6000 Kelvin ab, was sie super als Tageslichtlampen eignet. Alternativ können in solchen Lichtbogenlampen auch andere Gase und Substanzen vorkommen, wie Xenon. Die Unterschiede bestehen dann etwa in der Effektivität, Farbtemperatur oder Farbqualität.

LED´s

LED´s funktionieren anders als alle bisherigen Lichtquellen. Sie nutzen im Grunde einen negativen und einen positiven Pol und einen Halbleiter, der halb positiv und halb negativ geladen ist. Fließt Strom zwischen diesen Polen wird er als Photon und damit Licht abgesondert. Dies hat unsagbare Vorteile in der Energieeffizienz, da per se kein Objekt glühen oder leuchten muss. Erzeugt aber ein sehr einseitiges Spektrum an Licht. Dieses kann je nach dem genutzten Halbleiter die verschiedensten Farben haben. Um weißes Licht zu erhalten werden dann entweder rote, grüne und blaue LED´s gemischt (was ein sehr unvollständiges Spektrum erzeugt) oder eine blaue LED durch zugabe von Phosphor der gelb leuchtet, zu weißem Licht aufgewertet (was ein volleres aber immer noch nicht volles Spektrum erzeugt).

Durch diese Techniken ergeben sich verschiedenste Möglichkeiten sie in vollständigen LED-Lampen einzubauen. Tageslicht-LED Lampen sind meist nur mit Phosphor-Konvertierten Dioden versehen, das erzeugt hohen Output und ausreichend gute Farbqualität. Bi-Color Leuchten sind meist mit zwei verschiedenen Phosphor-Konvertierten Dioden ausgestattet. Die eine Hälfte bleibt eher bläulich, die andere sehr warm. Durch mischen der Dioden werden dann verschiedene Temperaturen erzeugt, diese sind aber in ihrer Farbqualität nicht optimal. Die dritte Variante, also full color Leuchten sind dann entweder mit drei verschiedenen LED´s, roten, grünen und blauen, oder zusätzlich einer weißen, oder sogar zwei weißen, einer kühlen und einer warmen ausgestattet. Grundsätzlich gilt, je mehr verschiedene Dioden verwendet werden, desto besser die Farbqualität, da sie mehr Farben mischen und damit ein volleres Spektrum erzeugen können. Dies geht jedoch auf die Lichtausbeute, da natürlich nie alle Dioden gleichzeitig leuchten werden.²

Gels

Ist man mit der Farbtemperatur des Lichts nicht zufrieden, gibt es jedoch noch immer eine allerletzte Lösung: Gels. Im Grunde nichts anderes als farbige, lichtdurchlässige Materialien, die man vor den Lichtstrahl hält. Ehemals aus Gelatine (daher der Name) und heute meist aus Polyester, können aber auch Gels natürlich nur bedingt helfen, da sie im Grunde nur gewisse Frequenzen aus dem bestehenden Licht rausblocken und andere durchlassen. Sie fügen kein Licht hinzu. Heißt: Das resultierende Licht ist in seiner Qualität schlechter als davor, da mehr Frequenzen fehlen, es hat eben nur eine andere Farbe. Besteht aber keine andere Möglichkeit, das Licht auf “natürlichere” Weise, direkt beim Entstehungsprozess in der Farbe zu verändern sind Gels natürlich hilfreich. Die wichtigsten sind hierbei CTB´s und CTO´s, was für Color Temperature Blue und Orange steht, also im Endeffekt das Licht abkühlt oder aufwärmt.³

vgl.

Vgl. Rhodes, Phil: Light Sourcs and Lighting Instruments. In: Mullen, Merritt David (Hrsg.) und Hummel, Rob (Hrsg.): American Cinematographer Manual. Eleventh Edition. Los Angeles: The ASC Press 2023. S. 105-108. ↩︎
Vgl. Rhodes, Phil: Light Sourcs and Lighting Instruments. In: Mullen, Merritt David (Hrsg.) und Hummel, Rob (Hrsg.): American Cinematographer Manual. Eleventh Edition. Los Angeles: The ASC Press 2023. S. 125-132. ↩︎
Vgl. Rhodes, Phil: Light Sourcs and Lighting Instruments. In: Mullen, Merritt David (Hrsg.) und Hummel, Rob (Hrsg.): American Cinematographer Manual. Eleventh Edition. Los Angeles: The ASC Press 2023. S. 143f. ↩︎

by dominik.bluemel - 8. December 2025

Impuls 6: The Possession of Hannah Grace

In meiner zweiten Filmanalyse dreht sich alles um den Horrorfilm The Possession of Hannah Grace, den ich bis dato selbst noch nicht gesehen hatte, aber aus gutem Grund ausgewählt habe. Er war zum Zeitpunkt der Veröffentlichung 2018 nämlich der erste Feature Film der in voller Länge auf einer spiegellosen Sony Kamera, der A7SII, gedreht wurde. Also genau das was ich vor habe.

Generelle Überlegungen

Der gesamte Film spielt in einer Leichenhalle und ist dementsprechend durchgehend Low-Key geleuchtet. Laut dem 1st AC, war dies auch exakt das was das menschliche Auge am Dreh gesehen haben soll. Heißt: Die Dunkelheit wurde nicht durch das Runterziehen der Schatten in der Post erzeugt, sondern das Set war wirklich so dunkel. Laut ihm wurde fast alles auf ISO 3200 geshootet, was eben diese Vorgehensweise ermöglicht hat. Zusätzlich, so hat man es im BTS gesehen, wurde anscheinend etwas gemacht, was ich so als Ratschlag noch in keinem Video gefunden habe: Irgendwie hatte es nämlich den Anschein, dass manche Szenen wirklich von den Practicals geleuchtet wurden. Auch wenn die Practicals, jetzt in diesem Fall keine klassischen Tischlampen hinten am Schreibtisch, sondern fette Neonröhren an der Decke waren, hat mich das doch sehr verwundert. Der (aus meiner Sicht) damit induzierte Effekt war natürlich, dass das Licht automatisch viel toppiger kam, und tiefe Schatten unter den Augen erzeugte. Als Beweis dafür, was ich damit meine, hier zwei Screenshots aus dem BTS des Films. In beiden Fällen kann ich eigentlich nur eine Lichtquelle ausmachen. Im Falle der Spiegelszene wahrscheinlich ein Tube-Light über dem Spiegel, und im Gang die Practicals an der Decke.

Frame 1-3: Die Heldin

Der erste Frame ist ein klassischer Shot im Film. Noch (oder gerade) geht keine Bedrohung von der halbtoten besessenen Leiche im Kasten aus, und die Hauptdarstellerin macht einfach ihren Job als Nachtarbeiterin in der Leichenhalle. Jedoch wird sogar schon hier mit einem extrem starken Kontrastverhältnis im Gesicht und mit extrem hartem Licht gearbeitet. In diesem Fall wird das Key-Light von der nebenstehenden Gerätschaft samt ihrem beleuchteten Arbeitsplatz motiviert, der mit Neon-Röhren ausgestattet ist, wie man in anderen Einstellungen sehen kann. So dunkel wie die Fill-Seite ist, dürfte kaum aus dem Frame draußen wohl eine fette Flag mit negative Fill gestanden sein, um das Gesicht so kontrastig hinzubekommen.

Im zweiten Frame ist sie bei der Einführung in ihren neuen Job zu sehen. Wie in der Einleitung beschrieben, sehr toppig geleuchtet, womöglich sogar wirklich mit den Deckenlampen am Set. Auch hier finde ich die Schatten im Gesicht, diesmal unter den Augen, sehr prominent. Besonders gut gefällt mir aber, wie ihr Chef in dem Licht herausgearbeitet wird. Anscheinend (zumindest soll es so den Eindruck machen) steht er direkt zwischen zwei Neonröhren. Die kameranahe gibt ihm Licht auf die Schulter, die ferne noch weiter hinten auf die Brust, sein Kopf inzwischen ist fast unbeleuchtet. Ich könnte mir vorstellen, dass sie dafür einfach die Practicals (sofern es mit diesen geleuchtet ist) mit schwarzem Stoff innen abgeklebt haben, um zu verhindern, dass sie streuen. Dadurch entsteht dann diese schöne Separation und der hohe Kontrast.

Im dritten und letzten Frame der Heldin wird es schon spannender, denn sie hört die ersten Geräusche und geht diesen auf den Grund. Was auffällig ist: Ab hier werden die Kontraste auf ihr eigentlich immer geringer, da sie als gesamtes immer dunkler wird. Wie vorher kommt das Licht sehr toppig, aber viel schwächer als vorher, was dafür spricht, dass die Practicals vermutlich Tubes sind, die das Team frei in ihrer Helligkeit kontrollieren konnte.

Besonders gut gefallen mir hier die Kontraste um sie herum. Die einzelnen Tische und Arbeitsflächen, die Bildschirme, die roten Knöpfe hinter ihr etc.. In diese Einstellung hätte man wirklich kaum mehr Lichttupfer einfügen können, ohne das es gestellt wirkt, immer schön mit der Separierung, dass zumindest kurz dazwischen schwarz ist. Außerdem ist nicht nur ein Kontrast zwischen hell und dunkel, sondern auch warm und kalt gegeben, da sie eindeutig kühler daherkommt, als die Tischlampen seitlich.

Frames 4-6: Die Besessene

Im ersten Frame ist die Anfangsszene zu sehen, in der der ursprüngliche Exorzismus am Mädchen scheitert. Für mich hier am auffälligsten ist die Farbe des Lichts, denn ihr weißes Gewand scheint eigentlich fast schon türkis, so kalt ist das Licht, das sie für diesen Shot gewählt haben. Das erzeugt natürlich auch auf der Haut extrem unnatürliche Töne, die einem das Gefühl vermitteln, dass hier etwas ganz und gar nicht passt. Verwunderlich finde ich die in diesem Fall recht gleichmäßige Ausleuchtung ihres Gesichts. Vielleicht war hier das Ziel, soviel von der Verrücktheit in ihren Augen mitzunehmen wie möglich.

Dieses fast schon türkise Licht zieht sich auch weiter durch ihre Darstellungen. Im Fall des zweiten Frames aber im Winkel mehr wie ich es eigentlich erwarten würde, nämlich sehr seitlich, mit starkem Kontrast zur Fill Seite. Auch sehr interessant: Das Backlight, das ihre Schultern und Haare vom Hintergrund abhebt. Dieses kommt nämlich aus einer sehr ähnlichen Richtung wie das Key – kann aber meiner Meinung nach nicht das gleiche sein, da sich das physikalisch nicht ganz ausgehen würde. Dadurch erreichen die Filmemacher aber natürlich einen recht interessanten Effekt: Sie können verhindern, dass die Darstellerin im dunklen Hintergrund absäuft, ohne irgendwie die Helligkeit der Fill-Seite angreifen zu müssen, und können diese ganz dunkel lassen.

Im letzten Frame ist dann die Kacke wirklich am Dampfen, denn der Dämon fordert in diesem Moment sein (glaube ich) drittes Opfer. Und drastischer geht es eigentlich auch kaum. Abgesehen davon, dass der Charakter eigentlich völlig absäuft und fast komplett dunkel daherkommt, ist die gesamte Umgebung in der signalstärksten aller Farben geleuchtet und das Spitzlicht an ihren Haaren macht mit dem Sensor der Kamera sowieso was es will. Also eigentlich gibts im gesamten Frame nur die drei RGB Values für schwarz, weiß und rot, mehr ist nicht.

by David Adlberger - 8. December 202515. December 2025

Product VI: Image Extender

Intelligent Balancing – progress of automated mixing

This development phase introduces a sophisticated dual-layer audio processing system that addresses both proactive and reactive sound masking, creating mixes that are not only visually faithful but also acoustically optimal. Where previous systems focused on semantic accuracy and visual hierarchy, we now ensure perceptual clarity and natural soundscape balance through scientific audio principles.

The Challenge: High-Energy Sounds Dominating the Mix

During testing, we identified a critical issue: certain sounds with naturally high spectral energy (motorcycles, engines, impacts) would dominate the audio mix despite appropriate importance-based volume scaling. Even with our masking analysis and EQ correction, these sounds created an unbalanced listening experience where the mix felt “crowded” by certain elements.

Dual-Layer Solution Architecture

Layer 1: Proactive Energy-Based Gain Reduction

This new function analyzes each sound’s spectral energy across Bark bands (psychoacoustic frequency scale) and applies additional gain reduction to naturally loud sounds. The system:

Measures average and peak energy across 24 Bark bands
Calculates perceived loudness based on spectral distribution
Applies up to -6dB additional reduction to high-energy sounds
Modulates reduction based on visual importance (high importance = less reduction)

Example Application:

Motorcycle sound: -4.5dB additional reduction (high energy in 1-4kHz range)
Bird chirp: -1.5dB additional reduction (lower overall energy)
Both with same visual importance, but motorcycle receives more gain reduction

Layer 2: Reactive Masking EQ (Enhanced)

Improved Feature: Time-domain masking analysis now works with consistent positioning

We fixed a critical bug where sound positions were being randomized twice, causing:

Overlap analysis using different positions than final placement
EQ corrections applied to wrong temporal segments
Inconsistent final mix compared to analysis predictions

Solution: Position consistency through saved_positions system:

Initial random placement saved after calculation
Same positions used for both masking analysis and final timeline
Transparent debugging output showing exact positions used

Key Advancements

Proactive Problem Prevention: Energy analysis occurs before mixing, preventing issues rather than fixing them
Preserved Sound Quality: Moderate gain reduction + moderate EQ = better than extreme EQ alone
Phase Relationship Protection: Gain reduction doesn’t affect phase like large EQ cuts do
Mono Compatibility: Less aggressive processing improves mono downmix results
Transparent Debugging: Complete logging shows every decision from energy analysis to final placement

Integration with Existing System

The new energy-based system integrates seamlessly with our established pipeline:

text

Sound Download → Energy Analysis → Gain Reduction → Importance Normalization

→ Timeline Placement → Masking EQ (if needed) → Final Mix

This represents an evolution from reactive correction to intelligent anticipation, creating audio mixes that are both visually faithful and acoustically balanced. The system now understands not just what sounds should be present, but how they should coexist in the acoustic space, resulting in professional-quality soundscapes that feel natural and well-balanced to the human ear.